Statistiques pour Médecins - Tests Statistiques (PDF)

Document Details

InviolablePrehnite8852

Uploaded by InviolablePrehnite8852

Faculté de Médecine

Christophe Combescure et Angèle Gayet-Ageron

Tags

tests statistiques statistiques médicales inférence statistique médecine

Summary

Ce document est un support de cours sur les tests statistiques, particulièrement pertinent pour les étudiants en médecine. Il explique les concepts clés tels que les intervalles de confiance, les différences entre observations et réalité, et la façon de poser et tester des hypothèses nulles et alternatives dans le cadre d'études cliniques. Il s'appuie sur des exemples concrets, et met l'accent sur la compréhension de la signification des résultats par rapport à la taille de l'échantillon.

Full Transcript

STATISTIQUES POUR MEDECINS Tests statistiques Christophe Combescure Angèle Gayet-Ageron Unité d’Appui Méthodologique du CRC FACULTÉ DE MÉDECINE Rappel Inférence statistique...

STATISTIQUES POUR MEDECINS Tests statistiques Christophe Combescure Angèle Gayet-Ageron Unité d’Appui Méthodologique du CRC FACULTÉ DE MÉDECINE Rappel Inférence statistique Paramètres (prévalence, risque, effet d’une Population intervention: différence de risque ou de moyennes,…) Echantillonnage (recrutement des Informent participant.es) Données observées Inférence statistique 2 Rappel Intervalle de confiance à 95%  Définition:  Ensemble des valeurs du paramètre compatibles avec les données de l’échantillon  Répond à la question:  Qu’est-ce que les données de l’échantillon permettent de conclure 𝑝(1 Ƹ − 𝑝)Ƹ sur le paramètre? 𝑝Ƹ ± 2 𝑛  Plus l’IC est étroit, plus l’estimation est précise  La largeur de l’IC diminue lorsque la taille d’échantillon 𝒔 augmente 𝒎±𝟐  95% des ICs contiennent la valeur du paramètre (5% ne 𝒏 la contiennent pas) quelle que soit la taille d’échantillon 3 Objectifs  Comprendre les notions suivantes – Différence observée vs Différence réelle – Test statistique – Hypothèses nulle et alterne – Erreurs de type 1 et 2 – Puissance – Calcul de taille d’échantillon Chapitres Petrie/Sabin 17 – 18 – 36 4 Différence observée vs différence réelle  Estimation du risque de nausée/vomissement après une intervention chirurgicale: – dans le groupe contrôle (anesthésiant habituel): l’estimation du risque pContrôle est 8/100=0.18 (18%) IC95%: de 0.10 à 0.26 (ou de 10% à 26%) – dans le groupe expérimental (anesthésiant expérimental): l’estimation du risque pExpérimental est 10/100=0.10 (10%) IC95%: de 0.04 à 0.16 (ou de 4% à 16%) On observe une différence de Groupe contrôle risque de 8% Mais on ne peut pas conclure Groupe expérimental que pExpérimental ≠ pContrôle Risque de nausée/vomissement 5 Différence observée vs différence réelle Si les mêmes résultats sont observés mais avec une taille d’échantillon plus grande  Estimation du risque de nausée/vomissement après une intervention chirurgicale: – dans le groupe contrôle (anesthésiant habituel): l’estimation du risque pContrôle est 72/400 = 0.18 (18%) IC95%: de 0.14 à 0.22 (ou de 14% à 22%) – dans le groupe expérimental (anesthésiant expérimental): l’estimation est pExpérimental est 40/400 = 0.10 (10%) IC95%: de 0.07 à 0.13 (ou de 7% à 13%) On observe une différence de risque de 8% Groupe contrôle Et on peut conclure que pExpérimental ≠ pContrôle Groupe expérimental 6 Principe d’un test statistique (1)  Sur une série de 10 lancers d’une pièce, êtes-vous d’accord que la probabilité d’obtenir «pile» lors du lancer d’une pièce est 0.50 si on observe: – 5 «pile» 0,25 Probabilité d’observer ce résultat si la probabilité d’obtenir «pile» est 0.50 à chaque lancer: – 6 «pile» 0,21 – 7 «pile» 0,12 – 8 «pile» 0,04 – 9 «pile» 0,01 – 10 «pile» hypothèse nulle (H0) lancer = 0.50  Les données sont collectées Sur 10 lancers, on observe 10 «pile»  Si ces données sont peu compatibles Si la probabilité d’obtenir «pile» à chaque avec H0, alors on rejette H0 lancer est 0.50, observer 10 «pile» est très peu probable donc on conclut que cette probabilité n’est pas 0.50 A partir de quel nombre de «pile» conclure que la probabilité n’est pas 0.50 ? 8 Principe d’un test statistique (3)  En recherche clinique – les chercheur.ses souhaitent démontrer que l’intervention expérimentale est efficace pour … les personnes exposées à un certain facteur ont un risque plus élevé de … – l’hypothèse testée avec le test statistique est l’hypothèse nulle (H0) absence d’effet de l’intervention expérimentale absence d’association entre l’exposition et le problème de santé – l’étude clinique est conclusive si les données permettent de rejeter H0 – l’hypothèse alterne (Ha) est l’hypothèse qu’on accepte lorsque H0 est rejetée existence d’un effet de l’intervention expérimentale existence d’une association entre l’exposition et le problème de santé 9 Question de recherche et hypothèses (1) Question de recherche: Est-ce qu’un anesthésiant expérimental réduit le risque de nausée/vomissement par rapport à l’anesthésiant habituel? Paramètres: Rexpérimental: Risque de nausée/vomissement chez les patient-es recevant l’anesthésiant expérimental Rcontrôle: Risque de nausée/vomissement chez les patient-es recevant l’anesthésiant habituel Absence d’effet de l’anesthésiant expérimental: Hypothèse nulle (H0) Rexpérimental = Rcontrôle Existence d’un effet de l’anesthésiant expérimental : Hypothèse alterne (Ha) Rexpérimental ≠ Rcontrôle 10 Question de recherche et hypothèses (2) BMJ 2004;329:1216-9  Plan d’étude  patients ayant une arthrose du genou (48+49)  traitement de base par diclofénac (Voltarène) – antiinflammatoire, antidouleur  en plus, comparaison de: – acupuncture « vraie » – acupuncture factice – aiguilles rétractables (placebo)  les groupes comparés sont indépendants  randomisation  insu: patient, évaluateur, statisticien  évaluation: échelle de douleur 0-100 11 Question de recherche et hypothèses (2) Question de recherche: Est-ce que des séances d’acupuncture en plus du traitement anti-douleur permettent de réduire la douleur par rapport à un placebo chez des patient.es atteint.es d’arthrose du genou ? Paramètres: macupuncture = niveau moyen de douleur chez les patient.es recevant des séances d’acupuncture mplacebo = niveau moyen de douleur chez les patient.es recevant les séances placebo Absence d’effet des séances d’acupuncture: Hypothèse nulle (H0) macupuncture = mplacebo Existence d’un effet des séances d’acupuncture : Hypothèse alterne (Ha) macupuncture ≠ mplacebo 13 Question de recherche et hypothèses (3)  Plan d’étude:  N=277 personnes avec addiction au tabac  Thérapie pour l’arrêt de consommation de tabac (3 mois)  Pas de groupe contrôle  Questionnaire mesurant la qualité de vie liée à la santé (St. George’s Respiratory Questionnaire) au début et à la fin de la thérapie – Score de 0 (meilleur) à 100 (pire) ♦ Evaluation: évolution du score de qualité de vie entre le début et la fin de la thérapie 14 Question de recherche et hypothèses (3) Question de recherche: Est-ce que la qualité de vie s’améliore entre avant et après cette thérapie pour arrêter la consommation de tabac améliore ? Paramètre: mEvolution = évolution moyenne du score de qualité de vie entre le début et la fin de la thérapie Absence d’évolution moyenne de la qualité de vie: Hypothèse nulle (H0) mEvolution = 0 Existence d’une évolution moyenne de la qualité de vie: Hypothèse alterne (Ha) mEvolution ≠ 0 15 Test statistique Généralités Population Hypothèse vraie H0 Ha Résultat du test Non rejet de H0 statistique appliqué aux données de Rejet de H0 l’échantillon H0 est rejetée si les données de l’échantillon ne sont pas compatibles avec H 0 Procédure statistique avec des risques d’erreurs 16 Lorsque H0 est vraie H0: Absence d’évolution moyenne de la qualité de vie H0: mEvolution = 0 Distribution des données dans la population moyenne = 0 (H0 est vraie) écart type = s 0 Distribution des moyennes des échantillons => sur un grand nombre d’échantillons, 95% Intervalle des estimations de moyenne compatibles avec m=0 est: des moyennes estimées sont dans cet 0 +/- 2 σ / √n intervalle Zone de rejet de H0 Distribution des moyennes des échantillons lorsque H0 est vraie 95% 2.5% 2.5% moyenne estimée 0 zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 Estimations de la moyenne peu Estimations de la moyenne Estimations de la moyenne peu compatibles avec H0 compatibles avec H0 compatibles avec H0 = +/- 2 σ / √n 18 …et maintenant, on observe la moyenne estimée avec les données de l’échantillon Résultat Résultat non statistiquement statistiquement significatif significatif on rejette H0 on ne rejette pas H0 moyenne estimée -2 σ/√n 0 2 σ/√n zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 Problème: l’écart type dans la population (σ) est inconnu Statistique de test formules Non calculable avec les données m dans l’intervalle +/-2 s/√n de l’échantillon car s est l’écart type dans la population 𝑚 dans l’intervalle +/-2 s/√n l’écart type dans la population s est remplacé par l’écart type dans l’échantillon s 𝑚 Calculable avec les données de dans l’intervalle +/-2 s/√n l’échantillon car s est l’écart type dans l’échantillon statistique de test z 20 Statistique de test et zone de rejet de H0 Distribution de la statistique de test lorsque l’hypothèse nulle H 0 est vraie 2.5% 95% 2.5% z -3 -2 -1 0 1 2 3 zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 …et maintenant, on observe la statistique de test z calculée avec les données de l’échantillon Résultat Résultat non statistiquement statistiquement significatif significatif on rejette H0 on ne rejette pas H0 z -2 0 2 zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 Retour à l’exemple  mEvolution = 0 (hypothèse nulle: pas d’évolution du score en moyenne entre le début et la fin de la thérapie en moyenne)  zone de rejet de H0: z < -2 ou z > 2  échantillon de 277 personnes  estimations avec les données de l’échantillon: – évolution moyenne: m = - 4.4 – écart type dans l’échantillon s = 18.3  Statistique de test : −4.4 𝑧= = -4.0 18.3/ 277 L’hypothèse nulle H0 que le score de qualité de vie est, en moyenne, inchangé avant et après la thérapie est rejetée 23 Lien avec l’intervalle de confiance à 95% 𝑚 Rejeter H0 𝑧= en dehors de l’intervalle +/-2 s/√n 𝑚 en dehors de l’intervalle +/-2 s/√n 0 en dehors de l’intervalle m +/- 2 s/√n 0 en dehors de l’intervalle de confiance à 95% de m  Exemple: – échantillon de 277 personnes IC95% de m = - 4.4 +/- 2 x 18.3 / √277 – évolution moyenne: m = - 4.4 = -6.6 à -2.2 ne contient pas la valeur 0 – écart type s = 18.3 24 Lien avec l’intervalle de confiance à 95% intervalle de confiance à 95% test statistique est non- contient la valeur du paramètre significatif (avec α=5%), correspondant à H0 H0 n’est pas rejetée intervalle de confiance à 95% ne test statistique est contient pas la valeur du paramètre significatif correspondant à H0 (avec α=5%), H0 est rejetée Attention: L’intervalle de confiance à 95% apporte plus d’information que simplement le rejet (ou non) de H0 Un article ne devrait pas rapporter le résultat du test statistique sans l’estimation du paramètre et son intervalle de confiance à 95% 25 Erreur de type 1 du test statistique Population Hypothèse vraie H0 Ha Résultat du test statistique Non rejet de H0 appliqué aux données de l’échantillon Rejet de H0 Erreur de type 1= rejeter H0 alors que H0 est vraie 26 Erreur de type 1 du test statistique Distribution de la statistique de test lorsque l’hypothèse nulle H 0 est vraie Lorsque H0 est vraie, sur un grand nombre d’échantillons, la statistique de test est: - dans la zone de non rejet pour 95% des échantillons - dans la zone de rejet pour 5% des échantillons 2.5% 95% 2.5% z -3 -2 -1 0 1 2 3 zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 Erreur de type 1 du test statistique  Si l’hypothèse nulle est vraie: – la statistique de test sera dans la zone de non rejet et H0 sera correctement non rejetée 95% du temps – la statistique de test sera dans la zone de rejet et H0 sera rejetée par erreur 5% du temps: erreur de type 1 5% = probabilité de rejeter H0 alors que H0 est vraie = risque d’erreur de type 1 = erreur  = seuil du test (seuil pour interpréter la valeur p)  Le risque d’erreur de type 1 est contrôlé (5%) par la construction du test statistique (choix de la région de rejet de H0) 28 Valeur p  la plupart du temps, on ne se contente pas de rejeter ou d’accepter l’hypothèse nulle  on donne un résultat plus nuancé: la valeur p (p-value)  méthode omniprésente dans les articles scientifiques médicaux 29 Valeur p  mesure de la compatibilité des observations avec l’hypothèse nulle H0  toujours entre 0 et 1 – plus la valeur p est proche de 0, moins les observations sont compatibles avec H0 – H0 est rejetée lorsque la valeur p est inférieure au seuil  du test  la valeur p est la probabilité d’observer le résultat obtenu dans l’échantillon ou un résultat plus extrême, si l’hypothèse nulle est vraie 30 Distribution de la statistique de test z lorsque l’hypothèse nulle H0 est vraie Par construction du test, la probabilité que la statistique de test tombe dans la zone de rejet de H0 est 0,05 Cette probabilité correspond à la surface en bleu zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 31 Distribution de la statistique de test z lorsque l’hypothèse nulle H0 est vraie Si la statistique de test est dans la région de rejet de H0, la surface en rouge est plus petite que 0,05 Statistique de test z calculée avec les données de La valeur p est la probabilité l’échantillon correspondant à la surface en rouge zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 32 Distribution de la statistique de test z lorsque l’hypothèse nulle H0 est vraie Statistique de test z Si la statistique de test calculée avec les est dans la région données de d’acceptation de H0, la l’échantillon surface en rouge (= valeur p) est plus grande que 0.05 zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 33 Valeur p  Probabilité d’observer le résultat obtenu ou un résultat plus extrême, si l’hypothèse nulle était vraie  Interprétation: – si la valeur p est petite (0.05), on estime le résultat obtenu est raisonnablement compatible avec H0 et on ne rejette pas H0 – plus la valeur p est petite, plus l’évidence contre H0 est forte  Attention: – 0.05 est une convention. En fait il n’y a pratiquement aucune différence entre p=0.04 et p=0.06 – statistiquement significatif ne veut pas forcément dire cliniquement ou scientifiquement important 34 Retour à l’exemple Statistique de test z = -4.0 Valeur p correspondante = 0.0001 zone de rejet de H0 zone de non rejet de H0 zone de rejet de H0 35 Conclusion de l’exemple Chez les participants de l’essai, le score de qualité de vie diminuait de 4.4 unités en moyenne (écart type 18.3 unités). Cette diminution moyenne est différente de 0. La diminution moyenne observée dans l’échantillon était statistiquement significative (p=0.0001). H0 Soit la thérapie n’a aucun effet sur la qualité de vie, et on a observé quelque chose de rare (on ne verrait une telle différence ou une différence plus forte que dans 0.01% des cas si on répétait l’étude un grand nombre de fois) HA Soit la thérapie a réellement un effet sur la qualité de vie 36 Test statistique Résumé de la procédure 1. Concernant le paramètre d’intérêt, définir une « hypothèse nulle » H0 qu’on souhaite tester 2. Concernant l’estimateur (ou sa « statistique de test »), définir: – zone de non rejet pour H0 – zone de rejet pour H0 3. Obtenir les données 4. Calculer l’estimateur, la statistique de test et la valeur p 5. Si la statistique de test tombe dans la zone de rejet (i.e. si valeur p < ), rejeter H0 37 Deux hypothèses, deux types d’erreur 38 Erreur de type 2 du test statistique Hypothèse vraie H0 Ha Non-signif. Erreur Non rejet de H0 1–α type II Test (β) statistique Erreur Significatif type I 1–β Rejet de H0 (α) 100% 100% 39 Erreur de type 2 du test statistique  Erreur de type 2: – lorsque l’hypothèse alterne Ha est vraie, la statistique de test peut quand même tomber dans la zone de non rejet de H0  Risque d’erreur de type 2, ou : – probabilité d’accepter l’hypothèse nulle lorsque l’hypothèse alterne est vraie – le risque d’erreur de type 2 est noté  – ce type d’erreur arrive lorsque les tailles d’échantillon sont « petites ». On parle de manque de puissance statistique. – on définit la puissance statistique: Power = 1- 40 Lorsque H0 est vraie, la distribution de la statistique de test z est centrée sur 0 H0 figure /2 /2 zone de non rejet de H0 41 Lorsque Ha est vraie, la distribution de la statistique de test z est centrée sur une autre valeur que 0 Ha figure Puissance = 1- probabilité d’accepter H0 si HA est vraie  0 1 2 3 4 5 6 zone de non rejet de H0 42 4 possibilités: H0 est vraie et z est dans la région de non rejet H0 est vraie et z est dans la région de rejet: erreur de type 1 Ha est vraie et z est dans la région de rejet Ha est vraie et z est dans la région de non rejet: erreur de type 2 figure H0 Ha Puissance = 1-  /2 /2 4 5 6 zone de non rejet de H0 Puissance et taille de l’effet à détecter  Exemple de la thérapie pour l’arrêt du tabac et évolution du score de qualité de vie:  2 unités en moyenne dans la population  écart type 18,3 unités dans la population  échantillon de n=277 consommateurs de tabac  4 unités en moyenne dans la population  écart type 18,3 unités dans la population  échantillon de n=277 consommateurs de tabac  6 unités en moyenne dans la population  écart type 18,3 unités dans la population  échantillon de n=277 consommateurs de tabac 44 Puissance et écart type dans la population  Exemple de la thérapie pour l’arrêt du tabac et évolution du score de qualité de vie:  4 unités en moyenne dans la population  écart type 30 unités dans la population  échantillon de n=277 consommateurs de tabac  4 unités en moyenne dans la population  écart type 18,3 unités dans la population  échantillon de n=277 consommateurs de tabac  4 unités en moyenne dans la population  écart type 15 unités dans la population  échantillon de n=277 consommateurs de tabac 45 Puissance et taille d’échantillon  Exemple de la thérapie pour l’arrêt du tabac et évolution du score de qualité de vie:  4 unités en moyenne dans la population  écart type 18.3 unités dans la population  échantillon de n=50 consommateurs de tabac  4 unités en moyenne dans la population  écart type 18.3 unités dans la population  échantillon de n=88 consommateurs de tabac  4 unités en moyenne dans la population  écart type 18.3 unités dans la population  échantillon de n=277 consommateurs de tabac 46 Puissance et seuil  du test H0 Ha figure Limite supérieure de la zone d’acceptation (z)  diminue →  augmente → puissance diminue zone de non rejet de H0 pour un seuil =0.05 zone de non rejet de H0 pour un seuil =0.01 Puissance d’autant plus grande que …  Seuil du test (= erreur α) est élevé  Différence à détecter est grande  Taille de l’échantillon (n) est grande  Variance de la variable dans la population (s2) est petite 48 Faible puissance: problème fréquent  Même si l’hypothèse alterne était vraie, on aurait une faible probabilité de rejeter l’hypothèse nulle (faible puissance)  Problème fréquent dans les études de petite taille  Un article scientifique médical devrait: – justifier le choix de la taille d’échantillon – rapporter la puissance de l’étude 49 Faible puissance et résultat non significatif H0 Ha figure - Soit H0 est vraie et on a observé quelque chose de fréquent (1-) - Soit Ha est vraie et on a observé quelque chose d’assez fréquent aussi () Manque de discrimination entre H0 et Ha Zone de non rejet de H0 50 Calcul de taille d’échantillon dans les études cliniques  Quand ? – au moment de la planification de l’étude  Pourquoi ? – éviter de conduire une étude ayant une faible puissance statistique – viser une puissance de 80% ou plus  Comment ? – taille d’échantillon à partir de laquelle la puissance pour détecter une différence cliniquement intéressante est de 80% (ou 90%) – utilisation de formules mathématiques 51 Asymétrie du test d’hypothèse  Un test statistique ne traite pas H0 et Ha de la même façon: – zone de rejet définie uniquement par rapport à H0 – on choisit habituellement α = 0.05, mais on se contente de  = 0.20 (puissance = 0.80) – on accepte Ha (lorsque H0 est rejetée) mais on n’accepte pas H0 (on se contente de ne pas rejeter H0) 52 Résumé  Hypothèse nulle  Procédure d’un test statistique  Valeur p = probabilité que le résultat soit égal ou plus extrême que le résultat observé avec les données de l’échantillon si l’hypothèse nulle est vraie  2 types d’erreur –  est contrôlé (0.05) par la région de rejet de H0 –  est contrôlé (0.20) par le calcul de taille d’échantillon  Hypothèse nulle H0 rejetée lorsque valeur p faible (< )  Puissance (1- ) = probabilité d’accepter Ha lorsque Ha est vraie  Résultat statistiquement significatif n’implique pas forcément que l‘effet/association détecté/e est cliniquement important/e  Le test statistique est complémentaire (ou même redondant) à l’intervalle de confiance à 95% 53 Prochaine séance: objectifs  Test vu aujourd’hui: – Test de Student pour comparer une moyenne à la valeur 0  Tests statistiques: – Test de Student pour comparer 2 moyennes – Test du Chi-deux – ANOVA Chapitres Petrie/Sabin 21 – 22 – 24 54

Use Quizgecko on...
Browser
Browser