FC5-LA-PORTE-Statistique d'une étude comparative PDF
Document Details
Uploaded by SmartestSugilite
P. Prades
Tags
Related
- Molecular and Cellular Methods in Biomedicine Lecture 1 PDF
- CNM Biomedicine: Human Sciences Cardiovascular System II (Part Two) PDF
- Biomedicine: Human Sciences - Cytology, Basic Genetics PDF
- Experimental Models in Biomedicine PDF 2024-2025
- Virus Prokaryotes and Eukaryotes PDF
- FC n°9 - Développement d’un médicament et études cliniques de phase III-2 PDF
Summary
This document contains multiple-choice questions (QCM) and other questions related to statistical analysis of comparative studies, focusing on aspects such as statistical significance, confidence intervals, relative risks, and the power of statistical tests, with a specific emphasis on biomedicine.
Full Transcript
21/09/2022 Pr. Silvy Laporte UE4 Biomédecine TSANGA Adèle SMADI Imane Statistique d’une étude comparative - partie 2 Le cours est similaire à celui de l’année dernière I. QCM portant sur le cours précédent : Correction : A. La différence absolue : Da = % d’évènements nouveau traitement (A) -...
21/09/2022 Pr. Silvy Laporte UE4 Biomédecine TSANGA Adèle SMADI Imane Statistique d’une étude comparative - partie 2 Le cours est similaire à celui de l’année dernière I. QCM portant sur le cours précédent : Correction : A. La différence absolue : Da = % d’évènements nouveau traitement (A) - % d’évènements ancien traitement (B) → Da = 3-6 = -3 % (signifie que le traitement B est plus efficace) La différence absolue est donc de 3 % en faveur du traitement B B. La réduction relative : RR= taux groupe A/ taux groupe B = 0.06/0.03 = 2 C. Voir A D. RRR = 1-RR = 1-0.5 = 0.5 ATTENTION : ici RR, on le fait en fonction du groupe B soit RR = taux B/Taux A = 0.03/0.06 = 0.5 E. Nombre de patients pour éviter un événement, NNT = 1/DA = 1/0.03 = 33.3 patients Correction : A : Vraie B : Vraie, plus la taille de l’échantillon est grand, plus l’IC est petit (précis) C : Faux, risque α D: Faux, +/- 1..96 x écart type E : Vraie Page 1/11 II. QCM d’entrainement Entrainement sur la page suivante ! Q3 : AC Q4 : ACE Q5 : BC Q6 : ABE Page 2/11 III. Lecture Statistique Un essai significatif n’est pas forcément un essai qui a un effet important ! Le cas de l’essai B : Un essai non significatif n’est pas synonyme d’absence d’effet ! (Il manque certainement juste un peu de puissance) Nous devons regarder l’estimation ponctuelle : - Plutôt favorable - Plutôt défavorable - Ou absence d’effet Quelle est l’estimation ponctuelle la plus importante ? Estimation ponctuelle = effet traitement = la bar sur le graphique. Ici l’estimation ponctuelle la plus important est la E Le résultat le plus précis ici est D ou B Le résultat le plus significatif est A. P est la distance entre le bord inferieur de l’IC et le 1. Effet clinique est le plus important dans E. Effet statistique est le plus important dans A. [Attirez l’attention du lecteur avec une citation du document ou utilisez cet espace pour mettre en valeur un point clé. Pour placer cette zone de texte n’importe où sur la page, faites-la simplement glisser.] Message 2 Remplacer tableau Synthèse : Une différence statistique entre 2 traitements ne veut pas dire effet clinique important Une absence de différence significative ne veut pas dire absence d’effet Message 1 : Une différence statistique entre 2 traitements ne veut pas dire pertinence clinique de la différence. (Essaie B ) Message 2 : Un petit p très bas ne veut pas dire effet traitement important (question à l’examen). (Essaie A et C) Page 3/11 - - Les études montrant une réduction du risque d’événements de façon significative : A, B (petit p énorme) et C (petit p plus petit que B), car l’intervalle n’inclue pas la valeur 1. Essai B : L’IC ne contient pas 1 donc l’étude est significative. Le RR est de 0,90 donc le bénéfice est de 0,05. Essai D : RR = 1 donc il n’y a pas de bénéfice. Dans certaines études de non-infériorité, on accepte que cette étude n’est pas de différence d’efficacité de traitement au bénéfice d’une amélioration de qualité de vie. Si on veut investir / acheter dans l’industrie pharmaceutique : mieux faut invertir la E car elle n’a pas encore fait ses preuves (peut être que l’essai n’est pas significatif à cause d’un manque de sujets), ça ne prouve pas que le médicament ne marche pas, donc elle est moins chère, les études montrent un très fort potentiel clinique donc une fois ses preuves démontrées, elle vaudra chère. A et C ont déjà prouvés leur efficacité (confiance dans les résultats) : bon plan mais coûte très cher. p le plus petit est celui de l’essai A car c’est l’essai donc le RR est le plus éloigné de 1. 1. Principes des essais de non-infériorité L’essai D : RR vaut 1 = absence d’effet et une bonne précision. a. Quelle est l’utilité de ce traitement ? Ce résultat est la comparaison d’un traitement facile à prendre et sécurisé avec un traitement difficile à prendre et pas sécurisé. L’amélioration n’est pas mesurable statistiquement, c’est un confort pour le patient. Ici nous ne cherchons pas une différence significative mais une équivalence d’efficacité. On cherche donc à démontrer que la molécule D est aussi efficace que le TTT de référence (pas qu’elle est plus bénéfique) ➔ Essais de non-infériorité (ou d’équivalence). Ainsi, un nouveau TTT est utilisé si une molécule offre un progrès thérapeutique par rapport au TTT de référence efficace. On considère qu’il y a progrès thérapeutique si : - La molécule est plus efficace (meilleure RRR) → essai de supériorité, l’IC ne doit pas contenir 0 (DA) ou 1 (RR) - La molécule a une efficacité équivalente → essai de non-infériorité, l’IC ne doit pas contenir la borne δ. Il présente cependant des avantages : ➢ Meilleure sécurité, tolérance supérieure (moins de toxicité...) ➢ Utilisation plus « commode » (une seule prise, pas de surveillance …) ➢ Simplification thérapeutique, désescalade ➢ Coûts inférieurs (le labo cherche quand même à se faire rembourser) b. La difficulté des essais de non-infériorité : Afin de comprendre les essais de non-infériorité, petit tour rapide sur les essais de supériorité : RR de 0,80 encadré par un intervalle de confiance qui ne contient pas la valeur 1 = différence significative en faveur du traitement Problème des essais de non-infériorité : l’équivalence va correspondre à l’absence d’effet (pas d’écart concernant les taux d’événement entre les deux groupes) -> il va falloir démontrer une absence d’effet (= une équivalence) avec un intervalle de confiance autour de cet effet. En traçant l’intervalle de confiance autour de cette valeur 1 : on entre dans la zone de perte potentielle d’efficacité qu’on ne veut pas toucher quand on fait un essai de supériorité mais qu’on est obligé de toucher quand on fait un essai d’équivalence ou non-infériorité. La question est de savoir : Jusqu’où peut-on conclure l’équivalence ? On consent une certaine perte d’efficacité par rapport aux bienfaits qu’on a en retour. Il faut mettre une limite de l’IC. On choisit une borne δ à ne pas dépasser AVANT l’étude, qui convienne à tous (autorité de santé, experts du domaine, les labos …). Il représente la tolérance de la perte d’efficacité. Page 4/11 La décision est par rapport à la borne fixée Montrer que l’efficacité n’est pas trop détériorée En fixant la borne de non-infériorité δ, l’essai qui figure en rouge va permettre de considérer que le traitement testé est non inférieur au traitement de référence et qu’il a des avantages qui auront été mis en avant. Alors que le médicament qui est évalué dans l’essai représenté en noir va être considéré comme non significatif en termes de non-infériorité car la borne de non-infériorité est dépassée : on ne va pas pouvoir conclure qu’il y a un progrès thérapeutique avec ce traitement parce que la perte d’efficacité est trop importante. En résumé : Une différence statistique entre 2 traitements ne veut pas dire différence clinique. L’absence de différence entre 2 traitements ne veut pas dire équivalence des traitements. Un test significatif ne veut pas dire certitude de l’effet traitement, il y a 5% de chances que l’effet soit à l’extérieur de l’IC Un test non significatif ne veut pas forcément dire absence d’effet traitement. Sur ce schéma : Lorsque l’on conduit un essai de supériorité, on attend que la borne supérieure de l’intervalle de confiance ne touche pas la valeur 1 qui correspond à l’absence d’effet. Alors que dans un essai de non-infériorité, on attend que cette borne supérieure de l’intervalle de confiance ne touche pas la barre δ qui correspond à la perte d’efficacité maximale que l’on peut consentir comptetenu des avantages que le traitement nous apporte par ailleurs. Dans les études de non-infériorité, on accepte de perdre de l’efficacité pour gagner sur d’autres points Il s’agit de la même information ici avec le même concept sauf que l’on représente cette fois-ci le résultat de façon absolu. Dans ce cas-là, la borne de non-infériorité est exprimée en valeur absolue. De la même façon, dans un essai de supériorité sur une différence absolue, on ne souhaite pas que l’intervalle de confiance encadre l’absence d’effet qui est la valeur 0. Pour l’essai de noninfériorité, on ne souhaite pas que ça dépasse la borne δ qui est fixée en valeur absolue pour pouvoir conclure à la non-infériorité. Ex= une statine qui arrive sur le marché va avoir du mal à faire de la concurrence a une statine déjà sur le marché sauf si cette statine à des avantages par rapport à l’autre ( pas de pb musculaire…) Page 5/11 IV. Risque d’erreur et puissance statistique 1. Le risque d’erreur α ou risque de faux positif Lorsque l’on conduit un essai clinique, du fait de l’aléa d’échantillonnage, le hasard peut faire apparaître une différence q ui en réalité n’existe pas. C’est ce qu’on appelle le risque de faux positif : conclure à tort à un effet positif du traitement alors que cet effet n’existe pas. C’est le risque qu’on accepte donc de prendre quand on met un médicament sur le marché. Donc : Risque α = risque de FP (faux positif) = risque que l’on accepte de prendre en concluant (à tort) à une différence qui n’existe pas : considérer comme efficace un traitement qui ne l’est pas. Lorsque l’on conduit une étude et qu’on arrive à l’analyse statistique, à l’estimation de l’effet traitement et de son IC, la question que l’on se pose : - L’effet traitement observé est-il ⇨ Une manifestation des fluctuations aléatoires ? ⇨ La traduction d’une réelle différence ? - Comment départager ces deux possibilités ? ⇨ Test statistique /!\ Les tests statistiques permettent de dire si la différence est plutôt due au hasard ou au TTT a. Test statistique : Le calcul de p = probabilité que le résultat est dû au hasard correspond au calcul du risque α p = risque de se tromper si on décide de conclure Ex : p = 0,49 : la part du hasard est de 4,9 %, c’est une différence non significative Ex : p = 0,0001 : la part du hasard est de 1 pour 10 000, c’est une différence significative Risque d’erreur α (ou risque de 1ère espèce ou risque de FP) et petit p sont à distinguer : Le risque d’erreur α ou risque de 1ère espèce ou seuil de signification est : ● Fixé a priori : seuil d’erreur que l’on ne veut pas dépasser pour conclure à une différence significative ● Si α est fixé à 5%, le résultat sera dit statistiquement significatif s’il y a moins de 5% chances d’être obtenu par hasard. Petit p ou p-value en anglais : ● Valeur estimée ● Probabilité que le résultat obtenu soit le fruit du hasard. Risque d’erreur α et petit p permettent de conclure à l’efficacité du traitement. Si p> à 5%, on ne peut pas conclure à l’efficacité du traitement Si petit p < α -> C’est une différence statistiquement significative Petit p est l’intervalle de confiance pour arriver jusqu’à 1 ATTENTION : α est fixé, p-value est calculée ! Rappel : Lecture statistique : ● Une différence statistique entre 2 traitements ne veut pas dire effet clinique important ● Une absence de différence significative ne veut pas dire absence d’effet, mais ne veut pas dire équivalence non plus ● Un test significatif ne veut pas dire certitude de l’effet traitement Page 6/11 Pour l’essai E par exemple, une absence de différence significative ne veut pas dire absence d’effet. On va rentrer dans un 2ème risque d’erreur, qui est le risque de faux négatifs, risque de seconde espèce. Message 3 : un test significatif ne veut pas dire certitude de l’effet traitement Message 4 : un test non significatif ne veut pas forcément dire absence d’effet traitement. (effet E, pas un manque d’effet mais manque de puissance) 2. Risque d’erreur β Le risque β (= risque de FN (faux négatif)) = risque de 2ème espèce : est le risque que l’on accepte de prendre de ne pas mettre en évidence une différence qui existe réellement (ne pas conclure qu’un TTT est efficace alors qu’il l’est). Le hasard peut réduire une différence qui existe réellement. Ce risque est lié à la taille de l’échantillon. Un test non significatif ne veut pas forcément dire absence d’effet du TTT c’est pourquoi il est impossible de conclure. Le risque de 2ème espèce est lié à la puissance statistique de la comparaison. Message 5: L’absence de différence ne veut pas dire équivalence des traitements, et ne veut pas dire qu’il n’y a pas d’effet ! 2 essais : 1er essai : p > 0.05 (intervalle de confiance à 95% touche la valeur de 1) -> pas de différence statistiquement significative car manque d’effet. 2ème essai : p > 0.05 -> pas de différence statistiquement significative car manque de puissance. Donc ici risque de faux négatifs par manque de puissance statistique de la comparaison. Barre noir =non significatif mais effet possible Barre bleu= non significatif mais effet possible Certains éléments vont nous aider à estimer le risque β : ➔ Si RR est près de 1, le risque β est faible ➔ Si l’intervalle est très large, le risque β est fort (manque de puissance, il faut refaire un essai avec plus de sujets à l’intérieur) Donc la puissance statistique d’une comparaison est l’aptitude d’une comparaison à mettre en évidence une différence qui existe réellement est : 1- β ⇨ Elle est conditionnée par le nombre de sujets (taille de l’échantillon) Calcul a priori du nombre de sujet pour garantir une puissance élevé ( 80-95%) Pour éviter le risque β : Lorsqu’on conduit un essai clinique, il va falloir dimensionner l’étude (calculer le nombre de sujets nécessaires a priori (avant l’étude) de façon à être dans le bonnes conditions pour avoir la puissance statistique nécessaire pour pouvoir conclure. Le calcul du nombre de personnes à inclure dans l’étude dépend : • De α : 5 % • De la puissance recherché (90%) : entre 80 et 95 % (ces 2 premiers paramètres sont des conventions statistiques, selon l’argent qu’on peut y mettre : 80 % moins cher que 90%) : probabilité de prouver une efficacité s’il est efficace (1-β). • De la différence à mettre en évidence (vrai effet) -> problème : on fait l’essai pour le savoir, mais doit être estimé avant de conduire l’étude ; si l’efficacité est très forte, on peut se permettre d’avoir un IC grand (pour qu’il reste significatif) et donc peu de sujets nécessaires => démarche spéculative. • De la fréquence de l’événement dans le groupe de référence (ou de la variabilité du critère quantitatif) Ex : mortalité post-infarctus : si pas assez de patients -> ne sert à rien Page 7/11 Si on ne conclue pas, on perd de l’argent et on fait perdre du temps au patient, d’où l’importance de bien calibrer l’étude avant de la faire. Pour un même effet du traitement (même RRR), si la fréquence est faible, on ne peut être significatif (étude pas assez puissante) et ceux même si l’effet du traitement est le même Pour une même fréquence, si on a un effet traitement faible, on va avoir une étude non significative. ⇨ Ainsi, l’étude est non significative soit parce qu’on n’a pas d’effet, soit parce qu’on avait mal dimensionné l’étude. 1% de différence (petite différence) par rapport au TTT de réf -> Beaucoup de sujet nécessaire 10% de différence (grande différence) par rapport au TTT de référence -> Pas beaucoup de sujet nécessaire Exemple : Tout est définit AVANT l’étude. Les scientifiques attendent (représenté par Cas 1 sur schéma résumé) : - Une fréquence AVC groupe Placebo de 2%. - Un RRR de 30%. - Le B = 10% Résultat cas 2 : On obtient : - Une fréquence AVC groupe Placebo de 14%. - Un RRR de 28%. Le résultat montre que la population était plus à risque -> fréquence d’événement augmentée -> IC plus petit -> gain de puissance. Le RRR est pratiquement le même. ⇨ Cas 2 = étude significative. Que ce serait-il passé si on avait obtenu = Résultat cas 3 : On obtient : - Une fréquence AVC groupe placebo de 1%. - Un RRR de 30%. Le résultat montre que la population était moins à risque que prévu -> fréquence d’événement diminué -> IC plus grand qui peut contenir la valeur 1 -> l’étude n’est pas significative. Résultat cas 4 : On obtient : - Une fréquence AVC groupe Placebo de 2%. - Un RRR de 10%. Le résultat montre que la population avait le même risque que prévu. Le RRR est moins élevé donc l’IC peut contenir 1 -> l’étude n’est pas significative. Page 8/11 Résumé : Une population pas assez à risque ou un effet traitement trop petit peut engendrer une absence de significativité des résultats. V. Lecture d’article QCM+++ : La démarche d’une lecture rapide : 4 parties dans un article scientifique : - Introduction : Données connues avant de conduire l’étude, et justifiant l’étude (arguments de vente) Méthodes : protocoles, éléments décidés avant de conduire l’étude (nombre de sujets, double aveugles…) Résultats : Etude, éléments trouvés à l’issue de l’étude (tableau descriptif des patients, effets indésirables, âge …) Discussion :Synthèse factuelle, validité interne/originalité, cohérence externe, limites de l‘étude 1. Exemple 1 Les mots soulignés en rouge sont les points positifs retrouvés dans la conduite de cette étude : important de soulignés les points + et les points - Double blind = double aveugle : contrôle biais de suivi et d’évaluation (dans aVeugle y’a un V comme dans suivi et eValuation) - Randomisé - Placebo controled trial : biais de confusion (y a CON) - Déclaration de Helsinki = respect des bonnes pratiques - Respect du bon nombre de sujet prévu - Respect protocole international (Consort) Limite : étude menée sur un seul site donc la représentativité diminue. Page 9/11 2. Exemple 2 Points positifs : - Block : c’est bien mais trop gros - Permuted : au sein d’un même bloc, les patients sont mélangés - Générés par ordinateur - Opérateur indépendant - Consentements patients - Double aveugle - Infirmière indépendante qui ouvre les enveloppes et prépare les injections - Boite et aiguille indiscernables entre traitement et placebo : garantie le double aveugle - Enveloppes rescellées sans autre regard Double aveugle donc on doit s’assurer que celui qui prépare les traitements ne les connaît pas, et qu’il est indépendant de l’étude => intérêt du masking L’objectif principal de cette étude est de réduire le nombre de transfusions. 3. Exemple 3 a. Analyse statistique Hypothèse de calcul AVANT étude : - Puissance : 80% - Risque α : 5% - Taux de transfusion groupe contrôle supposer : 50% - Réduction relative (non marqué dans l’article) attendue : 40% - Efficacité attendue dans le groupe sous médicament : 50% x 40% = -20% (DA) - Taux attendu sous acide tranexamique : 30% b. Comparaison des 2 groupes Ce tableau sert à voir si les sujets ont été bien répartis dans les 2 groupes. c. Pour conclure : Assez homogène, randomisation plutôt efficace due au faible nombre de patients (100 patients par groupe). Quand on compare les profils, on retrouve plus d’hypertendus et de patients prenant des antiplaquettaires (idem : pour les bloqueurs du canal Ca) dans le groupe acide tranexamique. Finalement, le groupe traitement est défavorisé donc on peut prouver l’efficacité du traitement si on trouve un résultat significatif lors de l’étude. Page 10/11 Cela aurait été plus embêtant dans le groupe contrôle car on avantagerait le groupe à tester. Ainsi, si on trouvait que le nouveau traitement est plus efficace que l’ancien, on ne pourrait pas conclure car on ne serait pas si c’est vrai ou si c’est seulement grâce à la bonne santé de ce groupe. Items de base pour les 2 parties : +++ ● Savoir ce qu’est différence absolue, un RR ou un OR ● Interpréter un résultat complet sur le critère primaire avec l’IC et le p ● De quels paramètres dépend la taille d’un IC ● Dans quelles situations on peut conduire un essai de non-infériorité ● Quels paramètres sont pris en compte pour le calcul du nombre de sujets VI. Quizz final Correction : A. VRAI. Bien faire Taux nouveau – taux de référence B. VRAI C. FAUX. RRR = 1-RR = 38% D. VRAI. Voir C E. VRAI. Il faut regarder si le risque relatif est inclus dans l’intervalle de confiance. Pour cela, on calcule le risque relatif à partir de la réduction du risque relatif soit 1-15% = 85% ou 0,85. 0,85 est inclus dans l’intervalle de confiance. Donc l’item est vrai. Page 11/11