Multiplicité des tests - Analyses intermédiaires/séquentielles et critères multiples PDF

Summary

This presentation discusses multiple testing in clinical trials, focusing on sequential and interim analyses. It explores the concept of multiple comparisons and how these methods mitigate the impact of error risk on significance in clinical trials.

Full Transcript

Multiplicité des tests – Analyses intermédiaires/séquentielles et critères multiples Véronique Sébille UMR INSERM U1246 SPHERE “methodS in Patient-centered outcomes & HEalth ResEarch” Universités de Nantes et de Tou...

Multiplicité des tests – Analyses intermédiaires/séquentielles et critères multiples Véronique Sébille UMR INSERM U1246 SPHERE “methodS in Patient-centered outcomes & HEalth ResEarch” Universités de Nantes et de Tours http://www.sphere-nantes.fr/ Inférence statistique (rappels...) Pbs posés par la recherche biomédicale → réponse certaine exclue Tests d’hypothèses → Tests statistiques – on conclut (éventuellement) à une différence “significative ”  non imputable aux fluctuations d’échantillonnage  pas avec certitude (impossible) mais avec un risque d’erreur consenti (D. Schwartz, in : J. Lellouch, éd., Présent et futur de l’épidémiologie, Paris : INSERM, 1988, p. 35) 4 Les risques de se tromper… ou non ! Objectif principal Évaluer l’efficacité d’un protocole comportant 4 administrations de méthylprednisolone pendant une période de 12 heures versus placebo sur l’incidence de l’œdème laryngé post-extubation chez l’adulte intubé et ventilé depuis >36 heures Comment on définit les quatre cellules du tableau ci-dessous de façon concrète en fonction de ces hypothèses ? Prise de décision Rejet de H0 Non rejet de H0 "Réalité" H0  1– Population H1 1–  5 Organisation générale d’un protocole de recherche clinique – Objectifs de l’essai – Schéma expérimental (randomisation, nb de groupes comparés, aveugle, groupes parallèles, cross-over, transversal, longitudinal…) – Critères de sélection (inclusion, non-inclusion) – Définition de l’intervention (modalités thérapeutiques, durée…) – Critères d’évaluation (principal, secondaires) – Plan d’analyse statistique clairement exposé a priori (avant recueil des données) Nombre de sujets nécessaires Analyses statistiques 6 L’analyse statistique Elle doit être entièrement prévue dès la phase de planification Approche classique – Ne réaliser qu’une seule analyse – Sur tous les patients inclus (randomisés) – Lorsque le nombre de sujets prévu a été atteint POURQUOI ?  devrait garantir le maintien des risques d’erreur à leur valeurs fixées à la planification…sous réserve des bonnes hypothèses initiales (D, s) Autres approches – Critères multiples – Analyses intermédiaires/ séquentielles Plan d’analyse statistique En pratique … souvent + complexe (liste non exhaustive !) – Plusieurs critères de jugement (principal, secondaires) – Plusieurs (>2) groupes, doses, … – Analyses en sous-groupes – Mise en œuvre éventuelle d’analyses répétées des données – ETC…  Problèmes liés aux comparaisons multiples (risque  ) 8 Comparaisons multiples Pourquoi est-ce un problème ? Exemple Essai comparatif, 2 groupes // (100 patients par groupe) Critères multiples (10 critères ≠ à comparer entre les groupes) 1er critère : score de douleur à J7 (EVA) H0 : µ1 = µ2 versus H1 : µ1 ≠ µ2 ; Test de Student, risque  = 5% 2ème critère : PAS à J7 Idem: hypothèses, test de Student, risque  = 5% 3ème critère : taux de succès à J28 H0 : p1 = p2 versus H1 : p1 ≠ p2 ; Test du c2, risque  = 5% Etc…. 9 Comparaisons multiples Pourquoi est-ce un problème ? Si je fais 1 seul test avec risque  = 5% Quelle est la probabilité d'observer un test significatif juste par hasard ? Proba = 0,05 et Proba (non significatif) = 1 – 0,05 = 0,95 On fait 10 tests sur les 10 critères Quelle est la probabilité d'observer au moins un résultat significatif juste par hasard ? – Proba (Au moins un test significatif) = 1 – Proba (Aucun résultat significatif) = 1 – [ Proba(1er test non significatif) x Proba(2ème test non significatif) x … x Proba(10ème test non significatif) ] = 1 – 0,9510  0,401 >>> 0,05 !! 10 Risque  et répétition des tests (n tests) 1 – (1 – )n Nb de tests Risque  global 1 0,050 2 0,098 3 0,143 5 0,226 10 0,401 100 0,994 1000 1,00 infinité 1,00 11 Quelques remarques Ces probabilités sont calculées en supposant que les tests sont indépendants MAIS les tests sont souvent positivement corrélés  peut atténuer l’augmentation de  – Si plusieurs critères sont fortement corrélés  probabilité de conserver H0 sous H0 (1 – ) pour ces critères sera d’autant plus grande, puisque la conservation de H0 pour un critère  la conservation de H0 pour les autres Néanmoins, le risque d’inflation du risque  est réel et doit être contrôlé  faire appel à un ajustement 12 Techniques d’ajustement Plusieurs approches ont été proposées (liste non exhaustive) – Méthode de Bonferroni – Méthode de Holm-Bonferroni – Méthode de Benjamini-Hochberg – Procédures hiérarchiques – Méthodes permutationnelles – Etc… + Analyses intermédiaires et séquentielles FDA Multiple Endpoints in Clinical Trials Guidance for Industry, January 2017 13 Ajustement de Bonferroni Très couramment utilisé pour contrôler l’erreur de type I () Idée générale (idem pour d’autre méthodes) – Tests multiples     faire les test avec ’ <  1) Identifier le nombre de tests (n) 2) Effectuer chacun des n tests au niveau de signification α/n  Très bon contrôle du risque  MAIS Les risques  et  (et donc la puissance 1 – ) ne sont pas indépendants – Si      (et vice-versa)  puissance  14 Ajustement de Bonferroni Nombre de sujets calculé  puissance : 80 % Ajustement de Bonferroni  puissance de chaque test (hypothèse de tests indépendants) 1 test  puissance  80% 10 test  puissance  50% Jouan-Flahault C, et al. M/S (2004); 20(2):231–35 15 Ajustement de Bonferroni Ajustement de Bonferroni – Si on souhaite conserver une puissance de 80% pour chaque critère  augmenter++ le nombre de sujets – Procédure la plus conservative : elle a tendance à conserver l’hypothèse nulle, résultats significatifs sont donc plus difficiles à mettre en évidence La procédure de Bonferroni peut donc souffrir d’un manque de puissance, en particulier lorsque de nombreux critères sont évalués Jouan-Flahault C, et al. M/S (2004); 20(2):231–35 16 Petite variante : Holm-Bonferroni Idée proche ; imaginons m tests : – p-valeurs triées par ordre croissant et comparées à des seuils 𝛼 𝛼 ajustés , ,… 𝑚 𝑚−1 Avantage : Plus puissant que Bonferroni tout en contrôlant le risque le 1ère espèce 17 Quelques alternatives Procédures hiérarchiques – Principe général Hiérarchiser les tests – Ordonner, du plus important au moins important, les critères de jugement ou les comparaisons entre les traitements A préciser a priori dans le protocole NS 1er critère testé STOP NS au risque  STOP sans ajustement 2ème critère testé NS S au risque  3ème critère testé sans ajustement S au risque  ETC… sans ajustement S NS : non significatif ; S : significatif 18 Hiérarchisation des tests Avantages – Chaque test est réalisé au niveau de signification α, sans ajustement du risque d’erreur de type I – Bon contrôle du risque α – N’affecte pas la puissance du 1er critère (critère principal) – Hiérarchisation très facile à mettre en œuvre sur le plan technique MAIS…??? … nécessite une réflexion importante en amont pour hiérarchiser les critères : pas toujours facile ! 19 Hiérarchisation des tests Inconvénients – La puissance des critères secondaires (en supposant que les critères sont indépendants), diminue rapidement en fonction de leur rang dans la hiérarchie (à chaque étape => hypothèse testée uniquement si la précédente est rejetée. Avec plus de critères => probabilité de passer chaque étape diminue) 1er critère (test)  puissance  80% Critères souvent positivement corrélés  atténue la diminution de la puissance 5ème critère (test)  puissance  30% 20 Multiplicité des tests Pour toutes ces méthodes : – Analyse une fois l’étude terminée – Nombre de sujets nécessaires inclus, suivi + monitoring réalisés – Planification (plan d’analyse) quelle que soit la méthode Réalisation d’analyses en cours d’étude. Possible ? – Analyses intermédiaires et séquentielles Analyses répétées des données qui s’accumulent 21 Approche de « référence » Analyse unique – Après inclusion et évaluation du nombre de sujets nécessaire (NSN) déterminé à la planification En pratique - Mise en évidence de différences réalistes entre les groupes thérapeutiques  NSN souvent élevé - problèmes éthiques - problèmes de recrutement - problèmes de coût 22 Intérêt des designs adaptatifs - Le calcul du NSN est théorique (basé sur des hypothèses) - Les données qui s’accumulent apportent éventuellement une information suffisante pour conclure précocement (sous H0 ou H1) - La répétition d’analyses statistiques “ classiques ” entraîne une augmentation du risque  ( le type de critère de jugement)  excès de faux résultats positifs 23 Analyses intermédiaires : risque  Méthodes Analyses intermédiaires Analyse 1 2 3 4 finale Pocock 0,017 0,017 0,017 0,017 0,017 O’Brien Fleming 0,00005 0,004 0,012 0,025 0,040 Lan DeMets (I) 0,015 0,016 0,017 0,018 0,019 Lan DeMets (II) 0,00001 0,002 0,011 0,025 0,041 Lan DeMets (III) 0,010 0,013 0,017 0,021 0,025 Peto 0,001 0,001 0,001 0,001 0,050 I, II et III correspondent à 3 fonctions ≠ proposées par les auteurs 24 Planification - Déterminer la formulation du test (unilatérale ou bilatérale) - Fixer les risques  et  - Déterminer la différence que l’on souhaite mettre en évidence Et en plus : - Choisir la fréquence des analyses (tous les 2n sujets ou tous les d événements selon la nature du critère de jugement) 25 Intérêt et limites Simplicité de mise en œuvre – Choix de la règle d’arrêt précoce (’) – Utilisation des tests classiques (c2, Student, Log-rank,…) – Analyse « discontinue » des données – Existence d'un logiciel : EaSt NSN – Réduction de 30% à 40% sous H1 et H0 – Augmentation du nb maximal / analyse unique 26 Exemple étude CATS Titre Essai prospectif randomisé, en double-aveugle comparant l’efficacité et la tolérance de Adrénaline versus l’association Noradrénaline + Dobutamine dans les chocs infectieux graves Objectif L’objectif est de comparer l’efficacité de deux stratégies thérapeutiques (A versus N+D) sur la mortalité des patients en choc septique Annane D, et al. Norepinephrine plus dobutamine versus epinephrine alone for management of septic shock: a randomised trial. Lancet. 2007;370(9588):676-84 27 Exemple CATS Schéma expérimental Essai multicentrique, prospectif, comparatif (A versus N+D), randomisé, en double-aveugle, sur 2 groupes parallèles Critères d’inclusion – Adulte des deux sexes – Présentant depuis au plus 7 jours les critères suivants  1 foyer infectieux, FC >90/min, FR …. – Ayant donné leur consentement libre,éclairé et par écrit – A défaut, le consentement sera obtenu auprès d’un membre de la famille, s‘il est présent – Dès que possible le patient sera informé et son consentement lui sera demandé 28 Exemple CATS Randomisation La randomisation sera stratifiée par centre et équilibrée Critère de jugement principal L’évaluation de l’efficacité du traitement sera appréciée sur les distributions de survie pendant les 28 jours suivant la randomisation Critères secondaires Taux de survie à J14, J28, J90, à 6 mois et à 1 an Nombre de défaillances viscérales entre la randomisation et la sortie de Réanimation Survenue d’un événement clinique grave (autre que le décès) entre la randomisation et la sortie de Réanimation – Hémorragie cérébrale, AVC, infarctus du myocarde, … Durée de séjour en Réanimation, à l’Hôpital Médico-éco 29 Exemple CATS Nombre de sujets nécessaires → Formulation (bilatérale) → Mortalité de patients en choc septique à J28 traité par A ≈ 60% → Bénéfice cliniquement intéressant : diminution absolue de 20% du taux de mortalité dans le bras « N+D » → Risques  =5% et  = 5% → NSNTot = 340 Pour permettre un arrêt précoce dans l’hypothèse d’une différence manifeste d’efficacité entre les 2 groupes Deux analyse intermédiaires (AI) seront réalisées après inclusion et évaluation d’1/3 et de 2/3 du NSN Frontières d’O’Brien et Fleming 30 Exemple CATS Nombre de sujets nécessaires Valeur du seuil de significativité de chaque AI – Frontières d’O’Brien et Fleming – Adapté pour garantir au test risque  global = 0,05 – Nombre maximum de sujets = 390 > 340 – Au max 3 AI  Valeurs des seuils 1’ = 0,0005 ; 2’ = 0,0141 et 3’ = 0,0451 31 Méthodes séquentielles Méthodes séquentielles groupées – TRSP (SPRT) et TT (1978) – Critères de jugement qualitatif, quantitatif et censuré – Analyse à chaque groupe de malades inclus : – arrêt avec non rejet ou rejet de H0 – inclusion d'un nouveau groupe de malades – Réductions importantes du NSN (de l'ordre de 50% sous H0 ou H1) 32 Figures TT et SPRT : tests unilatéraux V statistic V statistic 33 Figure SPRT et TT : tests bilatéraux 34 Planification Déterminer la formulation du test (unilatérale ou bilatérale) Fixer les risques  et  Déterminer la différence que l’on souhaite mettre en évidence Et en plus : – Choisir la fréquence des analyses (tous les 2n sujets ou tous les d événements selon la nature du critère de jugement) 35 Intérêt et limites Simplicité de mise en œuvre – Grande flexibilité d'utilisation – Lien direct et simple avec les tests classiques – Existence d'un logiciel PEST  plus commercialisé (autres logiciels possibles comme R) NSN – Réduction de 40% à 50% sous H0 et H1 – Augmentation possible du nb maximal / analyse unique 36 Essai comparatif Skenan versus Placebo Essai comparatif contrôlé contre placebo évaluant l’efficacité du Skenan pré-opératoire sur la consommation de morphine post-opératoire chez des patients en chirurgie programmée du rachis Bellissant E, et al. Effect of preoperative oral sustained-release morphine sulfate on postoperative morphine requirements in elective spine surgery. Fundam Clin Pharmacol. 2004;18(6):709-14. 37 Introduction - Objectifs Randomisation Critères de jugement AI et séquentielles – Conclusion Analyses répétées des données en garantissant au test un risque  global et la puissance souhaitée sous H1 Arrêt précoce et réductions similaires du NSN sous H0 et H1 Formulation uni ou bilatérale et tous type de critère de jugement Existence d’un logiciel spécifique pour AI : EaST Mise en œuvre (AI ou séquentielles) nécessite une TRES bonne organisation logistique – Critère principal monitoré + validé rapidement sur site(s) – Statisticien formé et disponible – AI ou séquentielles  d’autant plus efficientes si CP obtenu rapidement / vitesse des inclusions 48 Références bibliographiques Wald A. Sequential analysis, Wiley, New York, 1947. Peto R., Pike M.C., Armitage P. et al. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. Br. J. Cancer (1976) 34 585–612. Pocock S.J. Group sequential methods in the design and analysis of clinical trials. Biometrika (1977) 64 191–199. O’Brien P.C., Fleming T.R. A multiple testing procedure for clinical trials. Biometrics (1979) 35 549–556. Whitehead J. The design and analysis of sequential clinical trials, Revised, 2nd edn, Wiley, Chichester, 1997. Jennison C, Turnbull BW (1999). Group sequential methods with applications to clinical trials. Boca Raton, Chapman and Hall / CRC. 49

Use Quizgecko on...
Browser
Browser