Épidémiologie Analytique et Inférence Causale PDF
Document Details
Uploaded by InfluentialQuadrilateral9523
Faculté de Médecine
Rousselet
Tags
Summary
Ce document présente des concepts d'épidémiologie analytique et d'inférence causale, en se concentrant sur les diagrammes causaux. Il explique leur utilité pour représenter les relations de causalité et d'association et clarifier des problèmes complexes. Les conditions d'application des diagrammes causaux et la randomisation sont également abordés.
Full Transcript
Épidémiologie analytique et interférence causale [Diagrammes causaux] [Pourquoi utiliser les diagrammes causaux ?] Pour l'instant on a défini un problème simple Étude de la relation de causalité entre une action (A) et un résultat (Y) On a vu que : On ne peut pas accéder directement à la notio...
Épidémiologie analytique et interférence causale [Diagrammes causaux] [Pourquoi utiliser les diagrammes causaux ?] Pour l'instant on a défini un problème simple Étude de la relation de causalité entre une action (A) et un résultat (Y) On a vu que : On ne peut pas accéder directement à la notion de causalité Il faut passer de façon indirecte par la notion d'association pour s'en approcher Mais association n'est pas synonyme de causalité Pas nécessaire de formaliser notre structure de causalité pour se la représenter mentalement et interpréter nos résultats Dans la vraie vie les relations de causalité sont beaucoup plus complexes à interpréter. ***Intérêt des diagrammes*** Représenter de façon intuitive : Les connaissances expertes mobilisées Les hypothèses quant à la structure de causalité étudiée Représenter à la fois les relations de causalité et d'association Clarifier des problèmes conceptuellement complexes Faciliter la compréhension de l'étude pour les autres investigateurs/lecteurs Simplifier l'identification de biais méthodologiques [Conseil général :] Dessinez les hypothèses avant de tirer vos conclusions ! [Qu'est-ce qu'un diagramme causal ?] Graphe acyclique dirigé (GAD) Nœuds = variables aléatoires Flèches = relation de causalité Absence de flèche = absence de relation de causalité Les flèches ne sont pas forcément *déterministes* Ascendants = causes directes et indirectes Descendants = variables causées par la variable étudiée Médiation = situation où l'effet d'une variable passe par une autre variable La condition causale de Markov Toute variable du GAD est, conditionnellement à ses causes directes, indépendante de toutes les autres variables dont elle n'est pas une cause Autrement dit : toute cause commune à au moins deux variables du graphe doit elle- même être représentée sur le graphe ![](media/image2.png) [Conditions d'application] Inférence causale Inférer des relations de causalité entre des variables à partir de données expérimentales ou observées Conditions d'application Études randomisées Échangeabilité Études non randomisées Cohérence Échangeabilité Positivité ***Échangeabilité*** On considère l'effet du traitement A sur le risque de décès Y On répartit la population en 2 groupes : A=1 (traitement reçu) et A=0 (∅ de traitement) Propriété indiquant que : Quel que soit le groupe (A=1 ou A=0) auquel on administre réellement le traitement, le résultat obtenu sera le même pour chaque valeur possible de A Et ce résultat sera identique au résultat contrefactuel dans la population totale Mathématiquement : Pr (Ya = 1\|A = 1) = Pr (Ya = 1\|A = 0) = Pr (Ya = 1) On dit que le traitement attribué ne prédit pas le résultat contrefactuel Ya Y^a^ ╨ A pour tout a ce qui est différent de : Y ╨ A La présence d'échangeabilité rend possible : Le calcul du résultat contrefactuel à partir des données observées Car elle assure que le résultat observé dans chaque groupe est égal au résultat contrefactuel dans la population totale Elle garantit en quelque sorte la « **représentativité** » de chaque population étudiée vis-à-vis de la population cible Randomisation La randomisation est un outil particulièrement important pour l'inférence causale précisément parce que dans une expérience de randomisation idéale elle garantit la propriété d'échangeabilité ***Échangeabilité conditionnelle*** [Randomisation conditionnelle] On s'intéresse toujours à l'effet du traitement A sur le décès Y Mais cette fois-ci notre population n'est pas homogène en termes de gravité (L) : Les patients graves (L=1) ont peu de chances de s'en sortir sans le traitement A Les patients peu graves (L=0) ont de bonnes chances de survie même sans A Pour des raisons éthiques on peut être amené à décider de donner le traitement A en proportion plus importante aux patients graves qu'aux autres La randomisation conditionnelle consiste à réaliser des randomisations indépendantes, avec des fréquences de traitement différentes, dans différentes sous-populations Par ex : Pr(A = 1\|L = 1) = 0,75 et Pr(A = 1\|L = 0) = 0,5 [*Randomisation marginale* :] une seule fréquence de traitement pour tous Conséquences : La proportion d'individus graves (L=1) est supérieure chez les traités Or la gravité a une relation de causalité avec le décès Donc A sera facteur prédicteur du décès indépendamment de son effet propre La propriété d'échangeabilité (Ya ╨ A) n'est pas respectée Mais ce design peut aussi être vu comme 2 études randomisées indépendantes Dans les sous-populations grave (L=1) et non grave (L=0) Dans chaque sous-population on a alors une randomisation marginale Ce qui garantit l'échangeabilité dans chaque sous-population Dans ce cas on parle d'échangeabilité conditionnelle à la variable L Mathématiquement : Pr(Ya = 1\|A = 1, L = 1) = Pr(Ya = 1\|A = 0, L = 1) = Pr(Ya = 1\|L = 1) (idem pour L=0) Y ╨A\|L pour tout a et tout l [Conditions d'application dans les études observationnelles] Elles sont analysées comme s'il y avait eu randomisation de A conditionnellement à une (des) covariable(s) mesurée(s) L. 3 conditions pour faire cette analogie : Cohérence Les différentes valeurs possibles du traitement A sont bien définies et correspondent aux versions du traitement présentes dans les données Échangeabilité La probabilité conditionnelle de recevoir chaque valeur du traitement A dépend uniquement des covariables mesurées L Positivité La probabilité (conditionnée sur L) de recevoir chaque valeur du traitement A est \> 0 ***Cohérence*** Rappel définition (cf partie 1) Propriété indiquant que le résultat observé quand une valeur a de l'action est réalisée est identique au résultat contrefactuel associé à a Soit Y = Ya pour tout individu avec A = a Cette propriété peut paraitre évidente, mais elle implique en particulier une condition : Une définition précise des résultats contrefactuels Via une définition suffisamment précise des valeurs possibles de A Comment déterminer si cette condition est présente ? On ne peut pas le garantir Consensus d'experts ***Échangeabilité*** Plus compliqué : Comme on n'intervient pas directement On ne peut pas assurer l'échangeabilité par la méthode d'attribution du traitement Moyen indirect : Il faut pouvoir garantir qu'il n'y a pas d'autre lien d'association possible entre A et Y qu'un lien de causalité éventuelle de A sur Y ou une association passant par des covariables L Implique que le diagramme de causalité représente parfaitement la réalité En pratique il est très difficile de s'en assurer On considère que l'étude observationnelle ne permet pas de garantir la causalité Niveau de preuve : méthodes observationnelles \< essai randomisé ***Positivité*** La probabilité (conditionnée sur L) de recevoir chaque valeur du traitement A est \> 0 Mathématiquement : Pr (A = a\|L = l) \> 0 pour tout l présent dans la population L'objectif ici est de s'assurer que dans chaque sous-population définie par les valeurs de L, la probabilité d'obtenir chaque valeur possible de A est non nulle Cette propriété est garantie par la randomisation, mais n'est pas forcément vraie en conditions réelles Sur le plan graphique, la positivité est présente si toutes les flèches reliant les covariables L à A sont non déterministes. [Structures d'association] [Causalité vs association] Les diagrammes causaux permettent de représenter à la fois les relations de causalité et d'association. ***Lien de causalité*** Un chemin entre 2 variables dans le graphe est causal s'il est constitué uniquement de flèches qui vont dans la même direction Un lien de causalité est donc toujours orienté Exemple : L → A → Y ***Lien d'association ?*** Les liens d'association ne sont pas orientés : ils sont bidirectionnels Pas de représentation spécifique : identification à partir de règles graphiques [Association marginale] ***Cause commune*** Ici le tabagisme actif est la cause de 2 variables : Survenue d'un cancer du poumon (Y) ![](media/image4.png)Possession d'un briquet (A) Pas de causalité entre A et Y mais on attend une association [Règle] : 2 variables sont associées si elles ont une cause commune ***Collision*** Ici l'infarctus du myocarde (L) a deux causes différentes : Une mutation du gène ApoE (A) Le tabagisme actif (Y) Pas de lien de causalité connu, quid de l'association ? On dit que L réalise une collision sur le chemin A → L ← Y : il bloque l'association [Association conditionnelle ] ***Médiation*** Y a-t-il une association entre A et Y conditionnellement à B ? Y a-t-il une association entre A et Y chez les individus avec B=1 (ou B=0) ? Quand on connait la valeur de B, la connaissance de la valeur de A améliore-t-elle la capacité à prédire Y ? ![Image 8](media/image6.png) Bien que A et Y soient (marginalement) associées, elles sont aussi indépendantes conditionnellement à B : A ╨ Y \| B Règle graphique : Le conditionnement sur une variable médiatrice bloque l'association ***Conditionnement sur une cause commune*** A et Y étaient marginalement associées. Y a-t-il une association entre A et Y conditionnellement à L ? Mais elles sont indépendantes conditionnellement à L. C'est-à-dire qu'une fois L connu, la connaissance de A n'améliore pas la capacité à prédire Y Le conditionnement sur une cause commune bloque l'association. ***Conditionnement sur un effet commun*** A et Y étaient marginalement indépendantes car la collision bloque l'association. Y a-t-il une association entre A et Y conditionnellement à L ? ![Image 11](media/image8.png) Mais elles sont associées conditionnellement à L Et cette association est inverse : A = 1 diminue la probabilité de Y = 1 et inversement Le conditionnement sur un effet commun (ou collision) débloque l'association ***Conditionnement sur le descendant d'un effet commun*** A et Y étaient marginalement indépendantes car la collision bloque l'association. Mais elles sont associées conditionnellement à L. Et cette association est inverse : A = 1 diminue la probabilité de Y = 1 et inversement Quid quand on conditionne sur un descendant de la collision ? Le conditionnement sur le descendant d'un effet commun (ou collision) débloque l'association. [Règles d'association] En résumé : 2 variables peuvent être associées si : Elles ont une relation de causalité Elles partagent une (des) cause(s) commune(s) Elles partagent un effet commun et l'analyse est restreinte à un niveau particulier de cet effet ou de l'un de ses descendants Ces règles ont été démontrées mathématiquement Et formalisées par le concept de d-séparation Mais le lien entre ces règles graphiques et la notion d'association repose sur la condition causale de Markov Cette condition est donc fondamentale pour l'utilisation des diagrammes causaux [D-séparation] Un chemin dans un diagramme causal est bloqué si et seulement si : Il contient un conditionnement sur une variable hors collision Il contient une collision sur laquelle il n'y a pas eu de conditionnement, -- et qui n'a pas de descendant sur lequel il y a eu un conditionnement Deux variables sont d-séparées si tous les chemins entre elles sont bloqués Sinon on dit qu'elles sont d-connectées Deux ensembles A et B de variables sont d-séparés si : Chaque variable de A est d-séparée de chaque variable de B ***Fidélité*** Propriété : Soient A et B des ensembles de variables Si A et B sont indépendants, alors A est d-séparé de B dans le graphe de causalité Il existe quelques exceptions Si 2 variables sont liées par un chemin incluant une relation déterministe, alors : Elles peuvent être indépendantes même si certains chemins restent ouverts Les autres cas de figure ne seront pas vus cette année [Associations sans lien de causalité] [Causes d'association] Relation de causalité Erreur aléatoire Biais De confusion De sélection De mesure [Biais systématique] Situation où les données conduisent à une association qui n'est liée ni à une relation de causalité, ni à une erreur aléatoire. ***Biais structuraux*** Liés à un manque d'échangeabilité. On parle de biais conditionnel quand il entraine un manque d'échangeabilité conditionnelle, donc quand Y ╨ A \| L = l n'est pas valable pour tout l 2 grandes causes de biais structurel : De confusion = association par cause(s) commune(s) De sélection = association par conditionnement sur un effet commun ![](media/image10.png)Lié à la façon dont l'échantillon d'étude a été choisi au sein de la population cible Grandes causes de biais de sélection : absence de liste exhaustive de la population cible, refus de participation à l'étude, perdus de vue\... ***Autres sources de biais*** Biais de mesure Jusque-là on a supposé que toutes les variables (traitement A, résultat Y, covariables L) étaient parfaitement mesurées. En réalité ce n'est pas tout à fait le cas : on s'attend à ce qu'il y ait une part d'erreurs de mesure sur chaque variable. Lorsque cette erreur est systématique et orientée alors on dit qu'il y a un biais de mesure Ce biais est aussi appelé biais de classement car quand les variables sont binaires il peut entrainer un mauvais classement des individus en : Malades / non malades Exposés / non exposés Méthodes de lutte contre les biais de mesure : Standardisation des procédures : questionnaires, arbres de décision, codage\... Formation des enquêteurs Recueil de données à l'aveugle : mesure d'exposition, diagnostic, effets indésirables\... Mêmes procédures de suivi et de diagnostic pour tous les groupes Privilégier les examens objectifs, laissant peu de place à l'interprétation »\... [Exemple d'application] ***Tiré d'une publication de 2001*** Robins JM. Data, Design, and Background Knowledge in Etiologic Inference. Epidemiology. mai 2001;12(3):313-20. ***Controverse scientifique de la fin des années 70*** Effets de la ménopause : Bouffées de chaleur Perturbations du cycle menstruel Troubles du sommeil, de l'humeur Sécheresse vaginale Troubles urinaires Ménopause = diminution de la production œstrogènes par les ovaires Développement massif du traitement par œstrogènes après la ménopause Plusieurs millions de femmes concernées en occident [1975-76 :] parution d'études indiquant que les femmes sous traitement hormonal substitutif avaient un risque plus important de développer un cancer de l'endomètre Pourquoi ? Les œstrogènes pourraient causer le cancer Alternative proposée par deux chercheurs de Yale : A. Feinstein et R. Horowitz Explication de A. Feinstein et R. Horowitz Les œstrogènes n'ont pas besoin de causer le cancer pour qu'on observe une association entre les deux Dans ce cas le traitement conduirait simplement à un diagnostic plus précoce d'un cancer déjà présent 20 à 60 % des cancers de l'endomètre sont asymptomatiques à l'époque » Donc on ne les trouve que lors de suspicion de lésion de l'endomètre Or les œstrogènes provoquent des saignements vaginaux Les saignements conduiraient donc à une augmentation du taux de diagnostic » Même en l'absence d'effet des œstrogènes sur le risque de cancer Comment départager les 2 hypothèses ? C'est sur ce point qu'a eu lieu la controverse Approche de A. Feinstein et R. Horowitz Puisque l'effet des œstrogènes sur le cancer serait médié par le saignement Ils proposent de restreindre l'analyse aux femmes ayant eu un saignement Autrement dit ils conditionnent sur la variable médiatrice Si toutes les femmes de l'analyse ont saigné, elles ont la même chance d'être diagnostiquées Donc s'il persiste une association, c'est qu'elle est causale Approche de H. Jick, K. Rothman et A. Walker (Boston University et Harvard) Pour eux conditionner sur le saignement n'empêchera pas d'observer une association entre œstrogènes et cancer, même sans lien de causalité Donc toute association identifiée dans l'étude ne serait d'aucune utilité pour départager les deux hypothèses Quelle est la bonne approche ? ***Application des diagrammes de causalité*** [Hypothèse 1 :] les œstrogènes causent le cancer Image 13 [Hypothèse 2 :] l'association est médiée par le saignement ![Image 14](media/image12.png) [Approche de Yale] Image 16 [La bonne approche] Bloquer la causalité entre saignement et diagnostic (ex : diagnostic systématique) ![Image 17](media/image14.png)