FC n°9 - Développement d’un médicament et études cliniques de phase III-2 PDF
Document Details
Uploaded by WellBacklitBlackHole1417
Université Lille 2 Droit et Santé
2024
Ronéosaure
Tags
Related
Summary
This document is a past paper from Ronéosaure, a course on Biomédecine quantitative - Études cliniques de phase III. It details the development of a medicine and phase III clinical trials, using examples of anticancer drugs. The paper covers topics such as the choice of primary endpoint, experimental design, statistical analysis and the importance of patient numbers. The document includes the year, 2024, and will be helpful to students taking biomedical quantitative courses.
Full Transcript
Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Biomédecine quantitative Développement d’un médicament et études cliniques de phase III Exemple des anticancéreux Semaine n°9 -...
Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Biomédecine quantitative Développement d’un médicament et études cliniques de phase III Exemple des anticancéreux Semaine n°9 - 19 / 11 /2024 Heure de cours : 8h - 10h Professeur : FICHEUR & PENEL Correcteur : ENYEAMA Emmanuella Binome : GODEFROOD Hugo, GEOFFROY Juliette, LEPOUTRE Ambroisine, BOURIEZ Aurore Plan du cours I.Rappel V. Le choix du nombre de sujet II.Introduction A. Nombre de sujet : 3 questions cruciales III.Études de phase III de supériorité B. Notion de puissance d’un test statistique (risque 𝜶 et β) A. Le choix du critère de jugement C. Notion d’analyse de survie principal D. Calcul du nombre de sujet B. Le plan d’expérience (design) E. Le paragraphe “analyse statistique” IV. Plan d’expérience en phase III VI. Concepts associés aux études de phase 3 A. La comparaison A. Clause d’ambivalence B. L’évolution spontanée et la B. Le principe d’équipoise / principe d’incertitude variabilité liée critère de jugement C. Les biais C. Plan d'expérience: facteurs de D. Résumé de l’étude de phase III confusion et randomisation VII. Exemples de la vie réelle D. Plan d'expérience : simple et double A. Exemple 1 aveugle B. Exemple 2 E. Design de la phase III C. Exemple 3 1 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel I - Rappel Pour le développement d’un médicament de manière générale, on avance pas à pas. Tout d’abord, avant d’administrer la substance chez l’homme qui pourrait être un médicament, on a les études précliniques en faisant des tests in vitro ou in vivo chez les animaux. Ensuite, si tout va bien, 4 phases cliniques vont s’enchaîner : - Les études de phase I : le but est de déterminer la dose recommandée pour les études de phase II, pour cela on va estimer dose maximale tolérée. - Les études de phase II : pour mesurer l’efficacité et la tolérance d’un nouveau traitement dans une population précise de patient. - Les études de phase III Le nombre de patients est très variable en fonction de ce que l’on veut mesurer (peut aller jusqu’à 4000 patients), avec notamment un petit effectif pour les phases I et II versus un grand effectif pour la phase III. II - Introduction Les études de phase III sont des essais comparatifs comprenant les notions de comparaison, d’efficacité, et de randomisation. Si l’étude de phase III est positive, le nouveau traitement s’impose comme un nouveau standard avec une autorisation de mise sur le marché (AMM). Néanmoins, on va continuer à surveiller le médicament après, afin de vérifier que dans la population générale, on ait la même efficacité et tolérance que dans les essais cliniques. Les études de phase de III sont des études confirmatoires (confirmer l’efficacité) par le biais d’une comparaison avec un opérateur. Les études de phases I et II sont dites exploratoires. D’un point de vue technique, il existe 3 types d’études de phase III : - De supériorité, - De non infériorité et d’équivalence (qui sont juste citées mais pas abordées) On se concentre sur les études de supériorité qui sont les plus fréquentes. Notre objectif sera de démontrant la supériorité du nouveau médicament par rapport à un standard, ce dernier pouvant être: - Un médicament de référence reconnu par la communauté médicale comme étant le meilleur médicament possible dans cette situation. - Un placebo, qui est une substance biologiquement neutre, nécessitant une discussion médicale et éthique sur son utilisation comme comparateur. Il est utilisé quand il n’existe pas de médicament de référence. 2 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel III - Études de phase III de supériorité A. Le choix du critère de jugement principal De la même manière que pour les études de phase I et II, on va mesurer l’efficacité sur un critère de jugement : le critère de jugement principal. Ce dernier est l’un des éléments complexes à décider dans le cadre d’une étude de phase III. Normalement, une étude clinique pose 1 question principale, imposant donc 1 critère de jugement principal pour y répondre. Ce dernier doit cependant être validé et avoir déjà été utilisé dans d’autres études : il doit être convaincant et accepté par les cliniciens et les autorités de santé ( le critère doit avoir du sens dans le cadre de l’étude ). Il existe cependant d’autres moyens pour répondre à la supériorité à savoir: le plan d'expérience : comment se construit l’étude Le nombre de sujets nécessaire, son calcul, avec une argumentation Tous ces éléments sont décrits dans le protocole rédigé avant de commencer l’étude, qui sera soumis au CPP (Comité de Protection des Personnes) et à l’ANSM (Agence Nationale de Sécurité des Médicaments). Dans le cadre de la cancérologie, on utilise comme critère de jugement le plus convaincant la survie globale (est on est vivant ou pas?) car il y a des patients en conditions graves. Ainsi, si le nouveau médicament démontre une amélioration de la survie des gens ⇒ on démontre sa supériorité. Des limites se posent néanmoins sur l’utilisation de ce critère : le suivie est assez long (suivie pouvant durer 5 ans) ⇒ coûte de l’argent l’influence d’autres traitements. Exemple : Lors d’une rechute de la maladie, d’autres médicaments peuvent être utilisés pouvant influencer la survie globale Ainsi, dans le cadre d’une maladie grave avec où il existe peu de traitements, la survie globale est à privilégier comme critère de jugement principal. S’il y a beaucoup de traitements, la survie n’est pas le critère le plus facile à prendre. Il y a d’autres options qui peuvent être utilisées : La qualité de vie : via des échelles pour mesurer comment les gens se sentent La survie sans rechute ou récidive → autre type de survie Une combinaison de notions de qualité de vie et de survie. Exemple : combien de temps vivez-vous sans rechute et avec une bonne qualité de vie ? 3 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel B. Le plan d’expérience (design) On va aborder deux notions importantes : le plan d'expérience (le cadre expérimental que l’on met en place) et la détermination du nombre juste de patients qui ne soit ni trop grand, ni trop petit (pouvant poser quelques problèmes éthiques vis-à-vis de l’efficacité). Le plan d'expérience est une étude prospective, multicentrique, randomisée, contrôlée en double aveugle qui est qualifié de Gold Standard (tous les mots comptent selon le prof).1 1. Prospective C’est une étude où l’on ne connaît pas la réalisation de l’outcome à la date de l’étude, on ne peut pas influer la location du traitement, et on ne peut pas mettre en place de design (au moment où je rédige le protocole, les patients que j’inclus aujourd’hui n’ont pas déjà un événement). Cette notion s’oppose à “rétrospective”, où il y a déjà eu la réalisation de l'événement et étant nécessairement destinée à des études observationnelles. Exemple : étude comparative en analysant les données de tous les patients ayant reçu un traitement entre 2010 et 2023 dans les données de l’assurance maladie. NB : Pour les études de phase IV, on arrive après coup et au moment où on débute l’étude, l’évènement d'intérêt s’est déjà produit. 2. Multicentrique C'est-à-dire qui nécessite plusieurs centres (CHU comme AP-HP (Ile-de-France), etc...), en raison de pratiques pouvant être différentes d’un CHU à l’autre en plus du traitement. Cette notion est très utile, lors d’une nécessité de forte robustesse de l’étude (plus il y a de centres participants, plus on tend à des patients semblables à la population générale car une multitude de profils différents). 3. Randomisé : On tire au sort la location du traitement. En général, une moitié des patients dans deux bras parallèles : la moitié ont le traitement à tester et l’autre moitié ont soit un placebo ou un traitement de référence s’il existe. 4. Contrôlé Cela veut dire qu’elle est en double aveugle : le médecin ne sait pas ce qu’il donne et le patient ne sait pas ce qu’il reçoit. Le patient à néanmoins consenti au préalable pour avoir soit l’un ou l’autre. Exemple : une gélule qui semble pareille dans les deux bras de telle sorte à ce que le médecin ne sache pas ce qu’il donne et le patient ne sache pas ce qu’il reçoit. 1 Exemple de titre d’étude (pas du tout long) : JCO2015, phase III, randomized, double-blind, multicenter-trial comparing orteronel (TAK-700) plus prednisone with placebo plus prednisone in patients with metastatic castration-resistant prostate cancer that he has progressed during or after docetaxel-based therapy ELM-PC5. 4 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel 5. Déroulement de l’étude prospective ➔ On rédige le protocole: on décrit la population, les critères d’inclusions, de non inclusions, de recueil de l’information, l’ensemble de la méthode statistique. On va inclure des gens activement. Par ailleurs, il y a beaucoup de personnels pour un CHU encadrant de la recherche (des attachés de recherche qui ne font qu’encadrer l’administration du traitement, le déroulement des essais, les suivis réglementaires, ( 50-60 par CHU) ➔ On réalise l’essai. ➔ On analyse les résultats. IV - Plan d’expérience en phase III A. La comparaison → Pourquoi faut-il une comparaison? Quand vous observez une modification suite à l’administration d’un médicament, un effet qualifié de réel du traitement, c'est-à-dire un effet en lien avec la molécule administrée, peut être observé. La comparaison est nécessaire pour affirmer cet effet réel à cause de 3 raisons : 1. Une évolution spontanée de la maladie Si jamais on inclut des patients ayant une maladie virale (la grippe) et que l’on donne un traitement à ces patients, ils sont guéris quelque soit la molécule administrée (même de la poudre de perlimpinpin). Ainsi, en comparant avant et après, en pratique, il y a une amélioration. Le simple fait d'être dans un protocole peut provoquer une évolution plutôt favorable de la maladie. Exemple : Vous mettez des patients avec une maladie chronique (ex: le diabète) dans un protocole ⇒ ils surveillent mieux leur poids. Il existe aussi un effet statistique à savoir la régression vers la moyenne qui tend vers une diminution de la pathologie : c’est notamment le cas de certaines maladies avec une périodicité / fluctuation (ex : HTA). Par conséquent, on ne peut pas se contenter d’un seul groupe avec cette évolution spontanée, pas comme el famoso Didier Raoult à savoir: j’ai un traitement viral et je suis sûr qu’il est bon, je le donne à un seul groupe de patients… ⇒ Il y a un tas de situations où l'on peut observer des différences même si le traitement ne fonctionne pas ou est délétère. L’évolution spontanée, on l'équilibre par le fait de travailler sur deux groupes que l’on va comparer. 2. Les variables liées au critère de jugement On peut s’imaginer que ceux ayant reçu le traitement A sont différents de ceux ayant le traitement B et c’est presque toujours le cas. Les patients les plus graves reçoivent en général le traitement le plus lourd ⇒ il y a biais d’indication. 5 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel De plus, si on ne fait pas attention il peut y avoir des facteurs cachés derrière (exemple : le niveau de comorbidité des patients) qui à eux seuls peuvent expliquer une différence dans la proportion de l’outcome que vous retrouvez. Donc si vous avez un lien très fort entre le type de traitement donné et le niveau de comorbidité, gravité du patient cela peut biaiser des choses. Ce sont donc des facteurs de confusion. La randomisation permet de limiter ces facteurs de confusion, facteurs que l’on essaye de gérer dans les études observationnelles : c’est pour ça que l’on fait des modèles multivariées en épidémiologie. 3. La variabilité inter-individuelle L'évolution lorsque l’on administre le traitement est une forme de variable quantitative, variable que l’on tire au sort au milieu d’une population dans laquelle il y a plein de variables et plein de valeurs selon une distribution que l’on ne connaît pas. Chaque individu tiré au sort à une valeur qui est sa variabilité inter-individuelle. Dans un monde utopique où la machine à voyager dans le temps existe, on pourrait dire : je prends le patient devant moi, je lui donne le médicament, je regarde ce qu’il se passe, puis je reviens dans le passé et cette fois je ne lui donne pas le traitement. Cela permettrait de contrôler la variabilité inter-individuelle, le critère de jugement, et l’évolution spontanée de la maladie pour ce patient car c’est le même patient. Cependant dans le monde réel, la seule manière pour contrôler cette variabilité inter-individuelle est de raisonner sur un groupe de patients. En effet, la variabilité interindividuelle entre deux groupes tirés au sort sera en moyenne la même. En tirant au sort deux groupes, on équilibre cette variabilité interindividuelle, ou du moins, on la maîtrise. Comme on ne peut pas raisonner sur deux patients individuellement, on raisonne sur deux patients moyens : les deux groupes de traitement représentent donc les deux patients moyens. On a une moyenne de variabilité interindividuelle du groupe A et du groupe B. ➔ Sous l’hypothèse que les groupes ont été tirés au sort, cet écart suit une loi de student ou une loi normale mais dans tous les cas, on la connaît sous l’hypothèse nulle. B. Plan d’expérience: facteurs de confusion et randomisation Anecdote du professeur : Il travaillait à l’Institut Pasteur sur des patients qui avaient la maladie d’Alzheimer. Là-bas des patients avaient un MMSE (mini-mental state examination, avec un score de 0 à 30) entre 30 et 20 et une forme modérée de démence. Ils recevaient un médicament qui était la mémantine. Tous ceux qui avaient une forme plus grave (entre 20 et 10 par exemple) recevaient un inhibiteur de l’acétylcholine estérase, un autre traitement. Il y a un biais d’indication, d’information. 6 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel En effet, ils étaient suivis dans le temps et on observait l’évolution du MMSE. Mais en prenant ces médicaments différents, cela était déjà un témoin de différences entre la forme sévère et modérés. Le risque est que, en évaluant la mémantine déjà liée aux conditions initiales du patient (forme sévère), nous décrivons non pas son effet réel, mais les facteurs qui sont cachés derrière. Ceux qui avaient la mémantine étaient totalement différents de ceux qui avaient l’autre molécule. Ces facteurs cachés sont les facteurs de confusion. On a notre critère de jugement, notre groupe de traitement, et un facteur qui est associé statistiquement aux deux. D’ailleurs dans ce cas, le risque est que nos observations soient complètement perturbées par les facteurs cachés (exemple. : personne plus âgée,...). Si on ne fait pas attention, on trouve que le traitement le plus fort donné au patients les plus graves abime le niveau de MMSE. Les patients ayant le médicament le plus fort ne vont pas bien mais c’est la raison pour laquelle ils ont reçu le traitement le plus fort. Le facteur caché de confusion possède une solution que l’on ne peut pas mettre en place dans les études observationnelles. En effet, dans les études observationnelles, la seule solution va être de réfléchir sur les critères d’inclusion, la mise en place de design un peu particulier et surtout la réalisation d’un ajustement, d’un modèle multivarié. On a une autre solution qui est de faire de la randomisation mais celle-ci pose problème dans le cas d’une étude observationnelle. En moyenne, quand on tire au sort le traitement, on a tout équilibré (le niveau de MMSE si on suit notre exemple). La randomisation est tellement forte qu’on a même équilibré les facteurs que l’on ne connaît pas. Exemple : Lors du Covid 19, il y avait des facteurs que nous ne connaissions pas qui favorisaient l’aggravation de l’infection (comme les facteurs génétiques). Par la randomisation, on les a équilibrés. En moyenne, on compare 2 patients moyens. Après tirage au sort, le traitement est alloué en moyenne 1 fois sur 2. Il y en a qui reçoivent le nouveau traitement et les autres le traitement de référence. On assure la comparabilité des groupes, l’égalisation des contextes (en moyenne). D’ailleurs, pour avoir un équilibre, on ne peut pas travailler sur deux fois 15 patients : il en faut plus pour avoir suffisamment d’effectif pour limiter les fluctuations d’échantillonnage dans les deux groupes et progressivement avoir des valeurs qui vont véritablement en moyenne se rapprocher et se ressembler. Dans les essais multicentriques, le centre peut jouer un rôle assez fort. Les caractéristiques de prise en charge d’un centre à l’autre et les profils peuvent être assez différents. Dans la randomisation par centre : CHU de Lille, on a 50 patients traités par le médicament A et 50 traités par B, 7 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel CHU Montpellier on a 40 traités par A, 40 par B, A l'APHP de Paris on a 200 traités par A et 200 traités par B. Les centres sont des facteurs de confusion, facteurs cachés et différents dans l’étude. On veut que la randomisation soit parfaite dans les centres. On ne veut pas au CHU de Lille 60 traités par A et 40 traités par le B, situation qui pourrait se produire si on avait un tirage au sort au global. En général, on fait une randomisation par centre, on va faire le tirage au sort dans chaque centre, retirer l’effet potentiel des centres. La randomisation se fait dans un cadre interventionnelle, elle ne se fait pas à postériori, et rarement en épidémiologie (sauf si on veut par exemple étudier la consommation de fruit/légume avec un grand effectif, le groupe tiré au sort doit manger une portion de plus de fruit légume, et l’autre en mange normalement). Les études interventionnelles sont généralement pour les médicaments. Presque exclusivement dans les phases 3 dans lesquelles l’investigateur est maître de l’exposition. En épidémiologie interventionnelle, si on prend la relation tabac et la probabilité de développer un cancer colorectale, on ne peut pas tirer au sort le tabac pour des raisons éthiques. On va devoir faire des modèles qui tiennent compte de tous ces facteurs cachés que sont les facteurs de confusion dans la relation qu’on étudie entre l’exposition et la maladie. Dans l’essai clinique on est maître de l’exposition donc on peut équilibrer. C. Plan d’expérience: simple ou double aveugle Idéalement, on a un double aveugle car le médecin et le patient peuvent avoir des convictions. Globalement le médecin peut penser que ce nouveau traitement va mieux marcher et cela peut l’influencer et influencer la façon dont il donne, conseille le patient, dans la façon où il l’accompagne. Le double aveugle permet donc de diminuer les biais, surtout lorsque les critères sont subjectifs comme l’appréciation de la douleur, la qualité de vie, etc… (mesure des auto-questionnaires sur des échelles subjectives). Concrètement, le double aveugle nous donne un niveau de preuve tellement élevé qu'en général une seule étude suffit ⇒ méthode de référence. L’intérêt du double aveugle, est de maintenir une forme de neutralité du patient et du médecin. Le plus souvent, on a le double aveugle. Cependant, ce n’est pas toujours possible, par exemple si on compare une prise en charge chirurgicale à une autre, le chirurgien sait forcément ce qu’il réalise. Quand le double n’est pas possible, on peut être en simple aveugle (du patient ou médecin). Et quand l’aveugle n’est pas possible, on parle d’une étude en ouvert. Même si l'étude est en simple aveugle ou ouverte on peut quand même obtenir un niveau de preuve élevé si on se met dans une situation où celui qui mesure le critère qui nous intéresse est en aveugle (il ne sait pas ce que le médecin a donné ou ce que le patient a reçu). 8 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Exemple : quand on a étudié le vaccin contre le COVID-19. Dans ce cas là, le placebo a été maintenu. On a injecté de l'eau salée aux personnes recevant un vaccin placebo. Cela permettait d'être en double aveugle car le médecin ne savait pas ce qu'il le donnait et le patient ne savait pas ce qu'il recevait. Cette méthode est tellement forte au niveau de preuve que les deux groupes ne diffèrent que par le traitement qu’on leur a donné. Une étude qui démontre l'efficacité et la tolérance du médicament de phase III de ce type suffit à obtenir l'autorisation de commercialisation du médicament. D. Design de la phase III 1. Différents niveaux de preuve Dans les études observationnelles : la meilleure façon de travailler c'est dans les cohortes. Cependant, le niveau de preuve chute fortement car c'est un contexte où il y a beaucoup de confusion. En général, il faudra plus qu’une étude. Par exemple : il faut beaucoup plus de temps pour démontrer que le tabac donne le cancer du poumon – laissant beaucoup plus de place aux lobby pour expliquer le contraire – que de montrer que le vaccin ARN fonctionne. Le niveau de preuve le plus bas est l’étude cas-témoin dans le contexte observationnelle. Après nous avons l’absence totale de niveau de preuve, c’est quand on a simplement vu un patient, observé que le médicament a marché sur celui-ci donc on pense que le médicament fonctionne… Si les études interventionnelles ne sont pas réalisables, on passe aux études observationnelles mais on chute au niveau des preuves : la cohorte représente un niveau de preuve intermédiaire, tandis que l'étude cas-témoins offre le niveau de preuve le plus bas. 2. Groupes parallèles Sur le schéma, on tire au sort et en moyenne la moitié des patients reçoivent le traitement A. Généralement, nous avons des patients chez qui nous mesurons l’état au début et l’état à la fin puis nous les comparons. En moyenne, toutes les caractéristiques sont équilibrées ici. On peut presque se contenter de comparer l'état final si en moyenne cela est comparable. L'essai clinique de phase III où l’on tire au sort est le seul cas expérimental où l’on respecte H0, qui pose l'hypothèse que les deux groupes sont issus de la même population. Par le biais de cette étude, on cherche une différence entre les deux groupes. Sous l’hypothèse nulle, il existe 9 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel néanmoins des fluctuations liées au tirage au sort de deux groupes à partir d'une même population. Et un delta (=différence entre les 2 groupes) qui peut exister par hasard. C'est pour ça qu'on va comparer les évolutions dans les deux groupes pour être sûre que la différence qu’on constate entre les deux groupes n’est pas dû à la population mais au traitement. Pour cela, on regarde à H0 ce que le seul effet du tirage au sort a produit sur ce que l’on mesure, même si on a donné aucun traitement. Ensuite, après le calcul de la p-value, si cette dernière devient trop petite, ça ne peut pas être uniquement la conséquence du tirage au sort, ça ne peut pas être que la randomisation : il se passe autre chose ⇒ On conclut que si p-value est en dessous de 5% cela signifie que le traitement est efficace. Dans le traitement, les deux bras sont différents. On a du mal à démontrer des différences significatives lorsqu’on va faire un test en fin d’étude qui va comparer les deux évolutions entre les bras. Il va donc nécessiter un nombre suffisamment important de patient pour limiter les fluctuations d'échantillonnage et donc se donner le plus de force possible pour montrer les différences significatives : ça ne va pas être la même chose en fonction de ce que nous pensons sur l’efficacité du traitement (efficacité de 80 % ou de 10 %) ⇒ nous n'avons pas besoin du même nombre de patients selon l’étude. Si on reprend l'exemple du vaccin contre le COVID-19, qui nous a montré qu'il avait 95 % d'efficacité, il y avait donc 95 % d'infection en moins chez les personnes vaccinées. En réalité, c'est 95 % d'efficacité suspectée car on a uniquement les résultats des essais cliniques de phase II. V - Le choix du nombre de sujets A. Nombre de sujet : 3 questions cruciales On a 3 questions cruciales : → Quel est le critère de jugement principal ? Dans notre exemple, (phase I II III) cela correspond à la survie globale (pour les médicaments anticancéreux). Il faut beaucoup de temps avant d'avoir suffisamment d’événements pour pouvoir montrer des différences significatives et donc pouvoir conclure à une efficacité potentielle d'un traitement. Nous retrouvons une partie importante de la comparaison. Dans le 1er groupe, on a une valeur de référence qu’en général on connaît de part la littérature, l'efficacité du traitement, la proportion de personnes qui vont survivre dans l'étude contenant tout ce que l’on sait du traitement de référence ou de l’évolution spontanée de la maladie. 10 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Dans le 2ème groupe, cela sera basé sur les considérations de ce qu’a montré la phase II. → Quelle est la proportion de l’efficacité que l’on s’attend à observer ? Est-ce qu'on va passer de 10 % de survie à 20 % de survie ? De 10 % de survie à 50 % de survie? Quelle est la taille d’effet que l'on s'attend à trouver ? Selon l'H1 et selon la différence et la taille d'effet que l’on s'attendait à prouver, le nombre de sujets n'est pas du tout le même. La puissance statistique est (1 - β), c’est la force que l’on se donne de montrer un résultat significatif (par exemple de l’efficacité de mon nouveau traitement) si elle existe en population, véritablement. En général, on la fixe à 80% / 90%. B. Notion de puissance d’un test statistique (risque 𝜶 et β) Le test statistique est un pari (comme une pièce de monnaie) par le simple effet du tirage au sort, le simple effet du lancer de la pièce…Sauf quand la probabilité d’observer la différence que l’on a devant nous est plus petite qu’un seuil donné dans le protocole (toujours un seuil à 5%). Lorsque l’on est en dessous, on rejette que ce soit simplement le tirage au sort et la randomisation qui explique cette différence. On considère qu'il y a autre chose – le traitement. On calcule une p-value après avoir réalisé le test statistique qui prend les valeurs des groupes 1 et 2 (éventuellement leur variance et l'effectif). On va d'autant plus faire un test statistique simple avec le design de la randomisation tel que Khi2 ou Student. Ce seuil de 5% est le risque 𝛂 que l'on fixe dans le protocole. C'est un seuil accepté par la société et l'ensemble des chercheurs qui correspond au risque de se tromper quand on fait une découverte. C'est un pari car lorsqu'on fait une découverte et qu'on trouve une p-value=4% par exemple, on le compare au seuil 𝛂 de 5 %, et on peut se dire OK je ne pense pas que la randomisation explique cette différence → Je considère que c'est le traitement au risque 𝛂. Ce que l'on fixe pas, c'est le risque β car on ne le contrôle pas vraiment. On va le faire à travers la puissance (1 - β), soit la probabilité de détecter une différence si elle existe réellement, mais c'est beaucoup moins direct qu’avec le risque 𝛂. On préfère ne pas faire de découverte à tort plutôt que de faire une fausse découverte. En d’autre termes, on préfère contrôler le risque 𝛂. Mais en faisant cela, on néglige légèrement le risque bêta. Cela veut dire que l'on peut louper une découverte. Le nombre de sujet nécessaire est lié au risque 𝛂 mais également à la puissance de l’outil (test) statistique qui sera employé. 11 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel 1. Puissance et nombre de sujet Nous avons donc un lien entre la puissance statistique et le nombre de sujets. Comment est-ce qu'on fait le lien entre les deux ? Nous avons 4 paramètres influençant la puissance : La différence entre les deux groupes, le Delta Δ. Le risque Alpha Le nombre de personnes dans l’étude La variance pour les études quantitatives dont la racine carré est l’écart type (vis à vis du visuelle des courbes plus ou moins étendues) Le nombre de personnes dans l’étude dépend de tous ces facteurs : de la différence entre les 2 groupes, la puissance statistique que l’on se fixe, l’écart type si l’étude est quantitative et risque alpha. Elle depend aussi du plan d'expérience (2 groupes parallèles), et du critère de jugement principal = survie (délai d'apparition d’un événement) ou qualité de vie (score). On obtient une formule qui diffère selon le type d’analyse statistique. (dépend du critère de jugement) : N = F(Δ, puissance, DS, alpha). Cette formule permet de nous donner le nombre de personnes à inclure dans chaque groupe. On peut montrer que statistiquement le plus rentable pour montrer des différences significatives c'est d'avoir des groupes équilibrés, c'est d'avoir donc 50 50. 2. Comparaison avec un investissement : Pour l'investissement on veut absolument minimiser le risque de se tromper car on ne veut surtout pas perdre d’argent quitte à de temps en temps à louper des opportunités. Un bon investisseur ou un bon trader a des opportunités mais accepte de passer à côté de certaines car finalement il préfère négliger le risque bêta, et s'il saisit les opportunités il contrôle le risque. → c’est une analogie qui vaut ce qu’elle vaut c’est un vrai truc pas une vue de l’esprit Donc on privilégie l'alpha et on néglige beta : on loupe des découvertes car on préfère passer à côté de cette découverte plutôt que de tout perdre. On préfère contrôler le risque pour des raisons sociétales et sociologiques. C. Notion d’analyse de survie 1. Les particularités de l’étude de phase III ⇒ Étude de qualité Il faut trouver le bon curseur entre une étude qui est incontestable et une étude que les gens vont voir comme de qualité comme par exemple l’essai contrôlé randomisé : 12 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Le résultat est facilement cru parce que c’est linéaire, c’est assez simple dans sa réalisation. C’est très important d’avoir quelques choses que l’on peut croire car c’est tellement compliqué de changer les pratiques, de lutter contre la désinformation. C’est complètement infalsifiable par l'industrialisation parce qu’il y a un tirage au sort qui s’impose et ça équilibre les gens. C’est bien car sinon il y a un risque de conflits d'intérêt : l’industrie pharmaceutique conduit l’essai (il y a qu'eux qui ont les moyens aujourd’hui de conduire les essais de phase III) mais c’est aussi celui qui va le vendre et qui l'évalue. ⇒ Etude de la survie globale L'objectif en général c’est de comparer les survies avec événements. Cependant, il y a des difficultés : ça peut prendre du temps et ça demande de l’argent. Si le traitement est très efficace : on utilise la survie sans événements ou la survie sans progression de telle sorte qu’on va pouvoir porter une conclusion plus rapidement et le commercialiser. → C’est le critère de jugement principal car il permet d'établir s'il y a une différence significative entre les survies des 2 bras ( puissance = 80% pour se donner une chance de déceler une différence ). 2. Données de survie dans la notion d’analyse de survie Quand on a deux groupes de traitement et une seule variable explicative pour discriminer ces deux groupes, on peut faire un test qui s’appelle le test du Logrank ( cf prochain cours sur kaplan meier ). Pour les études observationnelles le modèle qui permet de faire des analyse multivariées en survie : Quand Y est quantitatif = Régression linéaire multiple Quand Y est linéaire = Régression logistique Quand Y est binaire avec un délai, avec potentiellement des censures on ferra un modèle de coxs On fait toujours les mêmes modèles, comme une forme de critère de qualité, car on fait toujours la même chose depuis 30 ans et que ça a montré sa pertinence dans de très nombreuses études. L’outil statistique que l’on utilise est extrêmement cadré (c’est très différent de l’informatique avec le machine learning ou l’intelligence artificielle où c’est quelque chose de très décomplexé et il y a des nouvelles méthodes qui sortent tous les jours). 3. Kaplan meier Situations admises par ce modèle Il y a plusieurs situations que l’on peut rentrer dans cet estimateur de kaplan meier et dans l'analyse des données de survie : Le patient, à la fin de l'étude, est encore en vie 13 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Il peut sortir de l'étude (réalisée de manière aléatoire et pas parce qu’il va très très mal) ○ il y a une perte d’info que l’on appelle la censure : on a pas suivi le patient pour la durée souhaitée et il faut le prendre en compte le patient décède au cours de l’étude ○ l'événement se produit avec un délai (très important car pas la même chose de décéder au bout de 3 mois ou au bout de 18 mois) La survie dans le modèle de kaplan meier C’est la probabilité d’avoir : t (le temps de participation à l’étude du patient ) > t (temps que je fixe) : Par exemple, la survie c’est la probabilité que les patients survivent plus de la durée de l'étude c’est à dire 2 ans. Peu importe le détail du calcul c’est : ( 1 - fonction de répartition de ce temps jusqu'à l'événement ) Apport d’un modèle de kaplan meier : On ne sait pas directement ou assez peu comparer la survie dans les modèles. On compare ce qu’on appelle le risque instantané de décès qui est une information sous-jacente qui correspond a la probabilité que le patient décède immédiatement à un moment de l'étude sachant conditionnellement (c’est implicite) qu’il n’est pas déjà décédé. (Même situation dans le cadre du modèle de coxs) Moins il y a de patients encore considéré dans l'étude plus on va avoir tendance à diminuer rapidement la survie lorsqu’un événement se produit. Cela permet de prendre en compte les censures. Ça permet aussi de connaître la médiane de survie (survie = 0,5). Ici la médiane = 16 mois quand la survie =0,5. D. Calcul du nombre de sujets 1. Suppositions à faire Le calcul sous-jacent va forcément passer par le risque instantané, qui est la version classique pour modéliser les données, donc il y a quelque chose qu’on fait pour calculer le nombre de sujet nécessaire, c’est qu’on doit supposer pour les données de survie qu’elles ont un aspects très particulier par exemple une allure de survie exponentielle 2. Exemple de calcul On veut comparer la stratégie dans un cancer gastrique métastatique de stade 4 : 14 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel On va avoir deux groupes de traitement qu'on va tirer au sort : On a une prise en charge standard (S) soit la prise en charge de référence lorsqu'on conduit l'étude qui est une chimiothérapie On a une prise en charge qui est expérimentale (E) soit l’intervention étudiée qui est l’exérèse du cancer primitif + chimiothérapie (on voit bien dans ce cas que l’on ne va pas pouvoir être en aveugle puisque le patient et le médecin saura s’il a été opéré). Le critère principal est la survie globale : puisqu'on a besoin de delta Δ, on a besoin de savoir d'où on part dans le groupe standard et de savoir où on va potentiellement avec le groupe expérimental. Il y a deux façons d’estimer la survie dans le traitement expérimental: soit on utilise l’essai de phase 2 qui nous donne une première estimation de la survie soit on va dire que la stimulation est très approximative et on va plutôt demander au clinicien à partir de quel pourcentage ça fait vraiment sens ? À partir de quel pourcentage on change complètement de niveau d'efficacité ? et donc on va se donner tout la puissance statistique et le nombre de sujet nécessaire pour être capable de démontrer cette différence qui fait sens cliniquement → On retrouve que dans le bras standard c’est 45%, la première proportion, et on espère faire dans le bras expérimental 55%, avec alpha 5% et puissance à 80% Il faut se donner une limite de temps donc on choisit la survie à 2 ans. On va suivre les gens pendant 2 ans parce qu’au bout de cette période, on aura plus d'événements et la puissance statistique que l’on aura lorsque nous étudierons une variable similaire dans une réalisation binaire ou un modèle de survie sera plus élevée → La puissance est très fortement liée au nombre d'événements (ce qui n’est pas du tout le cas pour les modèles de régression linéaires où la puissance est liée au nombre total d’individus dans l’étude). La période d’inclusion est de 2 ans (ce qui est une nécessité). ⇒ On trouve qu'il faut 219 patients par groupe (PASS 12) 3. Nombre de patients nécessaire au vu des situations Vous avez une situation où 𝛂 est à 5% et β est à 10% et on veut faire un test bilatéral. À gauche, on a la réponse au traitement de référence standard puis la réponse que l’on pense observer dans le traitement expérimental. Si vous avez 5% dans le bras standard et que vous vous attendez à avoir 10% dans le bras expérimental, il faudra beaucoup de patients car il faut avoir une valeur telle qu'elle sera significativement supérieure à 5% ○ ⇒ il faut 620 patients par bras. Si vous pensez que la réponse au traitement expérimental est de 40% par rapport à 5% 15 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel ○ ⇒ Avec 33 patients par bras, cela suffira à avoir 80% de chance de montrer un test significatif Si vous pensez que la réponse au traitement expérimentale passe à 25 % ○ ⇒ vous avez 74 patients par bras pour le même niveau de puissance statistique donc la même chance de montrer une différence significative si elle existe véritablement. Les questions qui se posent : assez fiables en termes de flux de patients ? Combien faut-il de groupe pour réaliser cette étude ? Est-ce-que je vais être capable d'inclure suffisamment de patients sur un délai suffisamment court pour être capable de réaliser mon étude ? Quand on soumet le protocole au CPP, puis a l’ANSM, tout ce detail du calcul y est dedans, Non seulement il est dedans + référence scientifique + toutes les étapes du raisonnement statistique. 4. Les limites du calcul Sans ce calcul, ou qu’avec 60% de puissance (= je ne donnerai que 60% de chance de conclure a une différence significative si elle existe ) ça ne serait pas éthique : on va sélectionner des patients pour l'étude on va tirer au sort on va les exposer à un nouveau traitement que l’on connaît finalement assez mal : La proportion d'étude qui vont confirmer l’efficacité en phase 3 sachant que la phase 2 était positive est d’⅓ car la phase 2 est un filtre pour limiter les faux positifs et les faux négatif avant de conduire l’étude de phase 3 qui coûte très très chère Inversement si on veut une puissance qui est plus grande 95/98/99%, le problème c’est de finir avec des nombre de patients infinis et c’est pas non plus éthique de mettre des gens dans des études avec un nombre de patients extrêmements élèves car le cadre expérimental est quand même pas sans risque pour le patient ⇒ il faut donc être raisonnable E. Le paragraphe “analyse statistique” 1. La description détaillée Le protocole doit comporter un SAP (statistical analysis plan) exigé par les autorités réglementaires et exigible par les revues scientifiques (CONSORT: consolidated standards of reporting trials). Il faut décrire le détail très précis des analyses statistiques réalisées après inclusion des patients, suivis des patients, et la récupération des données (tout ce que l’on doit respecter dans notre protocole pour réaliser l'étude). Il y a une nécessité méthodologique : aucune analyse statistique qui n’a pas été détaillé peut être réalisée parce qu'il y a un risque de faire un modèle un peu différent, de raisonner 16 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel sur un sous nombre de patients, de faire une analyse dans laquelle on modifie le critère d’ajustement. Ce n’est pas forcément de la fraude, c’est juste très compliqué de ne pas faire des biais même de bonne foi. → la notion de triple aveugle peut être utile : le statisticien ne sait pas quel est le groupe de traitement qu’il analyse. 2. La structure du paragraphe Le paragraphe de l’analyse statistique fait ressortir tous les points d’un protocole type qui est attendu qui est à peu près toujours le même avec des deadlines et des règles qui doivent être respectées. Dans ce paragraphe il faut : Décrire précisément l’analyse descriptive qui présentera les deux bras de traitement. Dire quel type de test statistique vous ferez en regard de l’objectif principal pour essayer de répondre à la question posée. Décrire chaque type d’analyse que vous ferez en regard des objectifs secondaires Décrire le responsable de l’analyse et quel sera le logiciel utilisé. Comme je vous l’ai dit ce protocole là, c’est vrai pour les autres phases cliniques, il est enregistré dans une base mondiale de telle sorte que chacun peut venir le regarder. On peut tout à fait aller sur le site, voir tous les protocoles en cours, où ils en sont, à quelle date ils prévoient de terminer le recueil des données. On peut ainsi très bien comparer ce qui est fait dans l’analyse finale qui est publiée avec ce qui était prévu. Ces écarts en protocoles ne sont pas rares, mais au moins puisque ces protocoles sont enregistrés sur cette base mondiale, on peut venir voir si le statisticien s’est permis quelque “largesse” vis à vis de ce qui était écrit initialement, précisément. Ce n’est pas rare que cela se produise (pas toujours dramatique, mais éviter le plus possible de le faire). VI - Concepts associés aux études de phase III On va voir quelques notions cliniques et éthiques en rapport avec les essais cliniques. L’étude clinique de phase III soulève beaucoup de questions au niveau éthique. Il y a différentes considérations à savoir : les clauses d’ambivalence la notion d’équipoise les biais A. Clause d’ambivalence La notion de clause d’ambivalence est donc la sélection de patients qui peuvent recevoir aussi bien le traitement A que le traitement B grâce à un tirage au sort. Tous les patients qui 17 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel sont inclus (dans le tirage au sort) vont être capables de recevoir l’un des traitements. Il ne doit pas y avoir de contre-indication (ex: allergie). B. Le principe d’équipoise / principe d’incertitude L’équipoise d’un point de vue éthique : on n’est pas autorisé à comparer n’importe quoi. Il faut vraiment avoir une forte conviction quand on a un doute sur la supériorité du nouveau traitement. On va prendre un exemple caricatural : admettons que tout ce qui a été fait au cours du traitement de référence, dise qu’on attend 5% d’efficacité, et que l’étude de phase II qui a été conduite avec le nouveau traitement nous dit qu’on a 95% d’efficacité. Est-ce qu’il est éthique, quand on a des données de la littérature qui montrent une telle différence, de faire un tirage au sort ? Deux exemples : 1. Il y a des maladies complètement incurables, par exemple la rage avérée (maladie virale). Si demain il existe un traitement contre la rage, on ne fera pas automatiquement une étude randomisée. 2. Exemple dans les publications scientifiques : Il y a une revue de la littérature qui a été publiée il y a quelques années pour savoir s’il y avait un niveau de preuves associées à des essais randomisés de l’intérêt du parachute quand on saute d’un avion. Bien sûr, il n’y a pas d’études randomisées avec ou sans parachute. De manière évidente, il faut un parachute. Ainsi, il faut vraiment être dans une situation où l’on a un réel doute de la supériorité d’un nouveau médicament par rapport à un autre. Ce doute peut parfois être levé par les résultats d’une étude parallèle. Exemple: Admettons qu’un laboratoire pharmaceutique conduit deux études, l’une aux États-Unis et l’autre dans le reste du monde. Admettons que l’étude dans le reste du monde avance plus vite que l’autre et donne la réponse : OUI, le traitement est nettement supérieur. L’autre étude faite aux États-Unis va s’arrêter pour un problème éthique, car il n’y a plus de principe d’incertitude. C. Les biais Les biais, il y en a beaucoup. On essaie de les limiter au maximum dans les études, même s’ils sont toujours présents. Biais de confusion (mal identifié) : Une erreur systématique qui influence les résultats toujours dans le même sens. On ne peut pas le maîtriser. 18 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Biais de sélection : Si l’on sélectionne trop la population dans l’étude, on ne sait pas si dans la vie réelle on va obtenir les mêmes résultats. Biais de suivi : Quand les patients ne sont pas suivis de la même manière en fonction du traitement A et du traitement B. Exemple : une étude américaine s’est complètement plantée parce qu’on comparait deux traitements : le traitement expérimental était réalisé uniquement dans des centres de référence, tandis que le traitement habituel était réalisé ailleurs. Ainsi, il y a une différence prodigieuse de suivi entre les deux groupes, non pas à cause du traitement expérimental, mais à cause du fait que les patients soient traités dans des hôpitaux totalement différents. Biais d’attrition : Beaucoup de patients interrompent le traitement, retirent leur consentement et ne veulent plus participer à l’étude. Il y a des patients qui refusent de continuer, des médecins qui décident d’arrêter le traitement. On se retrouve à la fin avec un nombre limité de patients. Biais d’évaluation : Quand on ne mesure pas le critère de jugement principal de la même manière dans les deux bras (groupes). Par exemple : si le critère de jugement est la douleur, la notion de double aveugle permet de limiter au maximum ce biais d’évaluation. D. Résumé de l’étude de phase III On a une population de patients d'intérêt qui rentre dans l’étude : c’est la maladie X. On divise cette population par un tirage au sort. Normalement, les deux populations sont parfaitement comparables. On mesure l'état de santé des patients au départ (normalement, identique dans les deux bras) puis on réalise le traitement en intervention (chimiothérapie, vaccination…). À la fin de l’intervention, après la période d’observation, on mesure l’état de santé des patients : est-ce que l’état de santé s’est amélioré ? Est-ce qu’il s’est dégradé ? Toute la mécanique de l’étude de phase III, c’est arriver à la fin à rattacher la différence de l’état de santé entre le groupe de l’intervention A et le groupe de l’intervention B aux deux traitements. La différence sur l’état de santé observée en fin d’intervention correspond vraiment à l’effet du traitement. 19 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel VII - Exemple de vie réelle : A. Exemple 1 ⇒ Essais de phase 3 qui compare une hormonothérapie à un placebo chez les patients présentant un cancer de la prostate métastatique. Les résultats de cette étude ont été publiés en 2010. On commence par une étude qui porte sur le cancer de la prostate métastatique et qui est influencée par une hormone : la testostérone. Cette hormone favorise la croissance de ce type de cancer. Ainsi, pour traiter ce cancer, on bloque la production de la testostérone (grâce à des traitements hormonaux) pour arrêter la progression du cancer. 1. Comment a-t-on construit l’étude ? Population d'intérêt : patients atteints du cancer de la prostate métastatique qui ont déjà reçu un traitement hormonal : c’est la castration (on supprime la production de testostérone). Dans l’étude, les deux interventions / traitements qui sont comparés sont : cette hormonothérapie à un placebo. À l’époque, comme il n’y avait pas d’autres traitements (alternatives), le placebo était acceptable. Le critère de jugement choisi : survie globale (= le critère le plus robuste), car il n’y a pas de traitement standard dans cette situation-là. Regarde les données de la littérature : quelle est la survie attendue des patients sous placebo ? Que nous disent les études de cohorte, les études rétrospectives de la survie des patients atteints d’un cancer de la prostate métastatique résistant à la castration ? On essaye de trouver ce qui permet d’estimer la médiane (= temps où 50 % des gens sont morts) de survie globale dans les patients correspondant à l’étude avec un placebo. Résultat : la médiane est estimée à 12 mois. Le médicament est intéressant : s’il permet de gagner plus d’un mois de survie par rapport au placebo. Dans cette étude, la collectivité médicale a dit 15 mois. C’est cliniquement pertinent de gagner 3 mois de survie dans cette situation. On passe d’une survie médiane de 12 mois à une survie médiane de 15 mois. La discussion a dit qu’il fallait au moins 3 mois pour que tout le monde soit convaincu que ce médicament ait une supériorité par rapport au placebo. Discussion avec l’équipe statistique : On fixe le seuil alpha, le seuil bêta, la médiane (15 mois, c’est intéressant). Le nombre de patients pour démontrer que l’Abiratérone est supérieure au placebo → on va nous dire qu'il faut environ 1 200 patients. 20 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Randomisation 1/2 : 1 patient sur 2 recevra l'Abiratérone (traitement hormonal) et 1 patient sur 2 recevra le placebo (étude en double aveugle). 2. Qu’est-ce qui se passe en vrai quand on fait l’étude ? Hypothèse de départ : On avait imaginé d’après les données de la littérature que la survie médiane (le temps que 50 % des patients décèdent) avec le placebo serait de 12 mois. ⇒ Or, on est finalement un peu en dessous de 10,3 mois. On estimait pour le nouveau traitement expérimental : 15 mois de survie (3 mois en plus) seraient intéressants. ⇒ C’est ce qui a été observé : c’est 14,8 mois, donc quasiment 15 mois. La différence entre les deux (Abiratérone et placebo) est très nette. Cette étude est positive et démontre de manière claire la supériorité de l'Abiratérone (traitement expérimental) par rapport au placebo en termes d'efficacité et en survie globale. À partir de ce moment-là, ce traitement (l'Abiratérone) est devenu le standard, il a été commercialisé. B. Exemple 2 ⇒ Étude de phase 3 d’un nouveau médicament anti-cancéreux, l’Éribuline, un poison du fuseau mitotique. Ce sont des patients atteints de cancer du sein métastatique qui ont déjà reçu deux autres chimiothérapies : on est en troisième ligne de chimiothérapie. On va comparer deux molécules de chimiothérapie. L’étude est randomisée, comparant ce nouveau médicament (Éribuline) à une autre chimiothérapie (Capécitabine). 1. Comment a-t-on construit l’étude ? Population d’intérêt : patients atteints d’un cancer du sein métastatique traités par deux chimiothérapies au préalable. Ici, il n’y a pas de placebo, il existe une molécule considérée comme le standard : c’est la Capécitabine. Le critère de jugement : la survie globale. Regarde les données de la littérature : quelle est la médiane estimée de survie globale sous Capécitabine (le traitement de référence) ? ⇒ 12 mois. C'est-à-dire qu'à 12 mois, 50 % des gens sont décédés. Quelle est la médiane espérée à la taille clinique de l’Éribuline si on considère que l’Éribuline est supérieure à la Capécitabine ? 3 mois, c’est très bien. 21 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Les statisticiens, avec un risque alpha et un risque bêta un petit peu différent, disent qu’il faut 1 000 patients. 2. Qu’est-ce qui se passe en vrai quand on fait l’étude ? Les courbes sont quasiment superposées, la différence n’est pas nette entre les deux bras de traitement. Que s'est-il passé ? On a sûrement sous-estimé l'efficacité du traitement standard. L’Éribuline nous donne une survie attendue autour de 15 mois ; en vrai, on est à 15,9 mois. Concernant la Capécitabine, on est largement supérieur : on avait imaginé après les données de la littérature que la médiane serait autour de 12 mois, alors qu’en vrai, on est à 14 mois. Donc, la différence observée entre les deux bras est vraiment trop faible : on n’a PAS démontré la supériorité du traitement expérimental par rapport au traitement de référence. Cette étude est négative, donc le médicament n’est pas enregistré dans cette situation. C’est une catastrophe pour l’industriel qui a investi énormément de temps et de ressources. Pourquoi, dans cette étude, la Capécitabine est-elle plus efficace que ce qu’on a vu jusqu’à présent ? Probablement à cause de la sélection des patients de l’étude : il y a eu une sélection de patients avec un très bon pronostic, ainsi qu’une exclusion des patients avec de mauvais pronostics. Ainsi, la population de cette étude-là n’est pas représentative de la population habituelle. C. Exemple 3 ⇒ Exemple illustrant un biais de confusion 1. Comment a-t-on construit l’étude ? Population d’intérêt : cancer du poumon métastatique qui a déjà reçu une chimiothérapie et qui va exprimer un récepteur membranaire de facteur de croissance qui est le récepteur à l’EGFR (epidermal growth factor receptor). Les deux traitements comparés : Thérapeutique moléculaire ciblée Erlotinib : médicament qui bloque la prolifération cellulaire en se fixant sur les récepteurs à l’EGF Placebo 22 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel Le critère de jugement : la survie globale (ici, c’est une maladie plus agressive que les précédentes). Recherche des données de la littérature : nous permettent d’estimer la survie médiane attendue sous placebo ⇒ 4 mois (à 4 mois, 50 % des patients qui ont un cancer du poumon pour lequel la chimiothérapie n’a pas marché sont décédés), et 6 mois avec le traitement expérimental, ce qui est considéré par la communauté médicale comme une avancée thérapeutique. En effet, passer de 4 mois à 6 mois permet de dire que le traitement est efficace. Le statisticien calcule le nombre de sujets nécessaires : le risque alpha 5 %, la puissance 90 %. Il faudra 700 patients. 1. Comment fonctionne le médicament d’un point de vue théorique ? On a la membrane cellulaire avec des récepteurs à activité tyrosine-kinase sur lesquels se fixe un ligand, l’EGF (epidermal growth factor). À la surface des cellules du cancer du poumon, on trouve des récepteurs à EGFR (epidermal growth factor receptor). Lorsque le ligand se fixe sur ces récepteurs, il stimule leur activité, ce qui déclenche des signaux de phosphorylation, de transduction et de prolifération cellulaire. Le laboratoire pharmaceutique a développé une petite molécule qui bloque la phosphorylation des récepteurs, empêchant ainsi la transmission du signal de prolifération cellulaire. Cette approche est appelée thérapie moléculaire ciblée. Pour sélectionner les patients qui participeront à l’étude, une méthode d’immunohistochimie est proposée. Cette technique de marquage permet de mesurer la quantité de récepteurs EGFR sur les cellules tumorales. Exemple : biopsie Première biopsie : quasiment pas de marquage brun. Conclusion : peu ou pas de récepteurs EGFR. Deuxième biopsie : marquage brun foncé abondant. Conclusion : forte expression des récepteurs EGFR. On sélectionne donc les patients qui expriment massivement les récepteurs EGFR, en supposant que plus il y a de récepteurs, plus le médicament sera efficace pour bloquer le signal de prolifération. 23 Ronéosaure 2024/2025 Biomédecine quantitative - Études cliniques de phase III Professeur Ficheur/Penel 2. Qu’observe-t-on ? Avec le placebo, on estimait une survie médiane d’environ 4 mois, et c’est ce que l’étude confirme : 4,7 mois. Avec le nouveau médicament, on espérait une survie médiane de 6 mois, et les résultats montrent une légère amélioration au-delà de cette prévision. ⇒ L’étude est donc positive. Elle démontre la supériorité du traitement expérimental chez les patients atteints d’un cancer du poumon. Le médicament peut donc être commercialisé pour cette indication. Cependant, le laboratoire a bénéficié d’un coup de chance : on a découvert par la suite que ce qui détermine réellement l’efficacité du médicament n’est pas l’expression des récepteurs EGFR mesurée par immunohistochimie, mais la présence d’une mutation spécifique de l’EGFR. Le médicament ne fonctionne que chez les patients porteurs de cette mutation et est inefficace chez ceux qui n’en sont pas porteurs, quel que soit leur niveau d’expression des récepteurs. Ce point inconnu au moment de l’étude a introduit un biais de confusion. En effet, la randomisation a permis, par hasard, d’équilibrer le pourcentage de patients porteurs de la mutation dans les deux groupes. Toutefois, la randomisation n’est pas toujours parfaite et peut parfois aboutir à des déséquilibres, ce qui aurait pu influencer les résultats de manière négative. 24