Summary

Ce document contient un résumé des concepts de base des biostatistiques, avec une introduction aux biais cognitifs et intervalles de confiance. Il comprend aussi des informations sur les probabilités et les statistiques. Les bases de ce document sont utile aux étudiants de niveau universitaire dans le domaine médical ou statistiques.

Full Transcript

BIOSTATISTIQUE Livre: Biostatistiques, une approche intuitive, MOTULSKY Partie : A, B, C, D, F et G (régression linéaire simple) 5 points sur des concepts basiques (QCM avec points négatifs) 10 points sur de l’interprétation de cas 5 points sur des éléments dans le bouquin mais pas vus en cours ou...

BIOSTATISTIQUE Livre: Biostatistiques, une approche intuitive, MOTULSKY Partie : A, B, C, D, F et G (régression linéaire simple) 5 points sur des concepts basiques (QCM avec points négatifs) 10 points sur de l’interprétation de cas 5 points sur des éléments dans le bouquin mais pas vus en cours ou sur des concepts plus poussés vus en cours I. INTRODUCTION Les biais cognitifs et statistiques : On cherche à voir un signal dans du bruit On oublie les effets de taille (forte variabilité lorsqu’on a de faibles échantillons) L’intuition est souvent trompeuse car l’humain gère mal les probabilités On gère mal la combinaison de probabilités, notamment en séquentiel Les croyances biaisent les analyses (on voit ce qu’on veut voir) Phénomène de régression vers la moyenne : en prenant les plus mauvais résultats, on a une forte probabilité que l’échantillon remonte vers la moyenne. o Biais statistique souvent présent sur les traitements médicaux les plus novateurs car on s’appuie sur les patients “condamnés” o Un groupe contrôle permet de contrecarrer cet effet II. INTRODUCTION AUX INTERVALLES DE CONFIANCE II.I. Probablités La probabilité peut revêtir deux significations : La fréquence relative d’un événement à long-terme --> Approche fréquentiste Le degré de croyance subjectif (non-utilisé en statistique) --> Approche Bayésienne Exemple : probabilité d’une femme enceinte le soit d’un garçon Génétique : le spermatozoïde a 50% de probabilité de transmettre le Y --> Déduction à partir des hypothèses Empirique : 51,7% Si l’on croit qu’une méthode permet d’avoir 75% de probabilité d’avoir un garçon, si l’on donne 85% de probabilité à ce que la méthode fonctionne, alors la probabilité subjective de la personne qui y croit est de 71,5% (P = 0,85 * 0,75 + 0,15 * 0,517), alors que quelqu’un qui n’y croit pas aura une probabilité de 51,7% Erreurs courantes : Ignorer les hypothèses sous-jacentes (ex : pas de jumeaux, pas d’avortement sélectif, proportion constante au cours du temps...) Inverser des probabilités conditionnelles : P(A|B) différente de P(B|A) (| signifiant “si”) o P(test positif|malade) : probabilité d’être positif si malade --> Sensibilité o P(malade|test positif) : valeur prédictive positive (yc les faux positif) Penser que la probabilité possède une mémoire Probabilité vs Cote : Probabilité : P = Na / (Na + Nb) Cote : O = Na/Nb --> Utilisé dans les rapports de cote entre groupes témoins Probabilité vs Statistiques Probabilité : on va du général pour aller vers le particulier Statistique : on part du spécifique pour généraliser vers un modèle II.II. De l’échantillon à la population Exemple : Contrôle qualité dans une usine pharmaceutique où l’on veut contrôler la quantité de biomolécule dans chaque médicament Population : production totale Échantillon : n boîtes choisies aléatoirement et indépendamment Description : valeurs obtenues sur élément de l’échantillon (m) Statistiques : Moyenne des éléments de l’échantillon Inférence : Généralisation probabiliste à l’ensemble de la population Estimation : Fait de chercher la valeur pour la population Paramètre : Valeur estimée pour la population (M), en l’absence de biais on a une espérance de la statistique = paramètre (E(m) = M) Biais : pour éliminer les biais Faire de la simulation : on connaît la valeur attendue dans la population, et on checke à la fin si l’échantillon possède les valeurs attendues Tirer aléatoirement et indépendamment les éléments de l’échantillon Il peut rester un biais qu’il faut modéliser après l’avoir mesuré (par exemple une concentration baisse progressivement et on tire les échantillons en début de semaine, il faut donc corriger le biais) Dans le cadre d’un sondage électoral, il faudrait ajouter des hypothèses (ou corriger les biais), par exemple les hypothèses de “réponse honnête” et de “stabilité des opinions” Dans le cadre d’un essai clinique, la population est plus floue car elle inclue aussi bien les malades à traiter aujourd’hui que demain (population hypothétique) : Un tirage aléatoire n’est pas techniquement possible car on n’a pas la totalité de la population de connue. Le tirage indépendant est également souvent limité par l’inclusion d’un nombre limité d’hôpitaux dans les études La stabilité dans le temps est quasi-impossible car le virus évolue, l’immunité aussi, etc. II.III. Intervalle de confiance d’une proportion L’intervalle de confiance vise à estimer un paramètre au niveau d’une population : Intervalle de valeur construit à partir des valeurs/données d’un échantillon de manière à contenir le paramètre de la population avec un certain niveau de confiance (habituellement fixé à 95%) II.III.I. Méthode de Wald modifiée, IC95 : p = observation attendue / total Marge d’erreur : Intervalle de confiance : Limites de confiance : valeurs entourant l’intervalle de confiance Ex : pour déterminer la proportion de boules noires et blanches, on effectue 20 tirages aléatoires et indépendants dont les résultats sont : B, N, B, N, B, N, N, N, B, N, N, B, B, N, N, B, B, N, B, N (9B, 11N) P(N) = 11/20 p’ (N)= 13/24 W = 2. = 0,2 IC = [0,34 - 0,74] Lorsque l’on a p = 0, on applique les intervalles de confiance suivants : N = 10 IC95 = 0,3 N = 100 IC95 = 0,03 N = 1000 IC95 = 0,003 II.III.II. Approche bayésienne : On considère que X est compris entre 0 et 1 (hypothèse minimaliste) et on va calculer un intervalle de crédibilité (courbe gaussienne) à partir des données. On peut également appliquer un « a priori » où l’on définit par exemple que X doit être compris entre 0,5 et 1 et on calcule un intervalle de crédibilité qui sera plus réduit que sans a priori II.IV. Intervalle de confiance des données de survie Ces méthodes ne s’appliquent qu’aux événements binomiaux (0 ou 1) qui ne peuvent se produire qu’une seule fois. Dénombrement : Fait de compter un nombre d’événement, nécessitant de poser comme hypothèse le fait que les événements sont indépendants. (Ex : nombre de migraine/patient/jour sous traitement) Taux : rapport entre deux unités différentes, par exemple le nombre d’événement par patient/jour. On nommera TA le taux observé sur l’échantillon On nommera τA le taux observé sur la population (en intégrant l’intervalle de confiance) Données censurées : données pour lesquelles il manque une partie de l’information. On applique un traitement spécial pour ne pas introduire de biais tout en exploitant les données disponibles (ex : un patient sortie d’une étude après 2 ans doit être inclus comme survivant à 2ans mais pas au-delà / ex : temps avant une migraine) Méthode de Kaplan-Meier : Le principe de la méthode est : Pour chaque individu, calculer la durée entre son intégration à l’étude et soit la survenue de l’événement (TM), soit la sortie de l’étude Ramener les durées sur un même axe Découpe par intervalles entre les événements. Pour chaque intervalle, o compter le nombre d’individus à risque (nj). Un individu à risque à un instant t est un individu qui, juste avant cet instant t, n’a pas présenté l’événement. (à t=2, on a 4 individus, à t=10 on en a 3) o compter le nombre de décès/observations (dj) o calculer le ratio des individus ayant survécus dans l’intervalle (Qj) o inscrire la durée de la période o Calculer le taux de survie globale à la fin de la période (nombre de survivant à ti / nombre à risque en t0, en excluant les données censurées) Tracer le graphique en barchart o A noter, on peut également calculer une aire de confiance qui joue le même rôle que l’intervalle de confiance o On peut représenter les données censurées en indiquant un événement de censure par un trait vertical --> Pas de modification de l’histogramme Qj = (nj- S(t) = Int nj dj t dj)/nj Q1*Q2 *. [0-2] / / / 2 1 [2-6] 4 1 3/4 6 3/4 [6-12] / / / 12 3/4 3/4*1/2 [12-14] 2 1 1/2 14 = 3/8 [14-22[ / / / 22 3/8 Représentation graphique des données de survie : le plus souvent on représente un taux de survie en fonction du temps en commençant à t0 = 100% de survie et ensuite on regarde l’évolution décroissante de la courbe. On peut aussi représenter le taux d’événements cumulé qui part lui de 0% et monte. Hypothèses retenues : Échantillon aléatoire (ou représentatif) Sujets indépendants Moment de départ clairement défini (le plus souvent le début d’un traitement) Censure indépendante de la survie (on n’a pas le droit de censurer si la raison est liée à la survie, par exemple on n’a pas le droit de censurer une personne qui part en soin palliatif) Constance dans les critères d’inclusion (ex : avec le développement des pacemakers, des patients de moins en moins critiques ont eu des pacemakers) Constance dans la définition de l’événement Pas d’évolution du risque d’événement (attention aux études portant sur des dates d’entrées dans le protocole très éloignées les unes des autres) A noter : Lorsque l’on a 2 groupes (un test, l’autre de contrôle), l’échantillon est la totalité des patients, séparée ensuite en 2 groupes Le paramètre étudié au niveau de la population est un taux (le même que la statistique estimée sur l’échantillon) Ne pas oublier l’hypothèse d’indépendance des événements II.V. Intervalle de confiance des données de dénombrement (distribution de Poisson) La distribution de Poisson prédit la fréquence avec laquelle n’importe quel nombre particulier d’événements ou d’objets sera observé. Elle peut être utilisée pour analyser le nombre de réalisations d’un événement par unité de temps ou le nombre d’objets présents dans un certain volume. Lorsque le nombre d’observation, C, est supérieur à 25, on obtient la formule des IC suivante : III. VARIABLES CONTINUES III.I. Mesures de tendance centrale Moyenne arithmétique : Moyenne harmonique : Moyenne géométrique : Moyenne tronquée : moyenne tronquée suite à exclusion des outliers ou des seuils extrêmes (1%, 5%, 10%) Médiane : valeur séparant les individus de l’échantillon en 2 groupes égaux Si n impair : valeur située à la position (n+1)/2 Si n pair : moyenne des deux valeurs situées aux positions n/2 et (n+2)/2 Mode : valeur qui revient le plus souvent III.II. Vocabulaire Variabilité biologique : les individus n’ont pas tous le même âge Précision : La précision est grande quand les différentes estimations d’une même quantité sont proches de la moyenne des estimations (écart-type faible). La valeur peut être très éloignée de la réalité mais être précise Biais : Le biais est l’écart entre la valeur vraie et la valeur estimée sur une infinité d’estimation. Exactitude (accuracy) : absence de biais, la moyenne des valeurs estimées est égale à la valeur vraie. III.III. Représentation graphique des données continues Dot plot : représentation basique, les points ne se chevauchent pas pour favoriser la lisibilité Box plot (boîte à moustache) : lorsque le nombre de points augmente, on bascule sur une boîte à moustache qui décrit : Le min et le max Les 4 quartiles La médiane Violin plot : souvent associé à un box plot, renseigne les «densités» de réponses Histogramme : description des réponses par classes de réponses. On utilise la densité de fréquence relative (DFR) qui permet de tracer plus facilement la courbe de Gauss (via superposition) : Fonction de répartition : utile pour calculer des percentiles, on a juste à tracer une barre horizontale III.IV. Les différents types de variables Variable : expression qui peut prendre plusieurs valeurs différentes Variable aléatoire : variable dont la prochaine valeur ne peut être prédite Variable discrète : qui ne peuvent prendre qu’un certain nombre de valeurs Binaire : 2 valeurs possibles Nominale : >2 valeurs possibles, catégories non-ordonnées (ex : raison d’entrée aux urgences) Ordinale : > 2 valeurs possibles, catégories ordonnées, écarts non interprétables (ex : échelle de notation du cours) Variables continue : nombre infini de valeurs possibles dans un intervalle Variable d’intervalle : écarts interprétables, ratios non-interprétable - pas de véritable 0 (ex : état de santé d’un patient sur une échelle, ou température en Celsius --> cela n’a aucun sens de faire un ratio) Variable de ratios : ratios interprétables (ex : Température en Kelvin --> 200K est 2 fois plus grand que 100K) III.V. Les mesures de dispersion Percentiles : valeurs qui divise une distribution en une valeur donnée. On utilise principalement 5 percentiles (P0, P25, P50, P75 et P100) Variance : Écart-type : σ Coefficient de variation : Attention quand on a plusieurs estimations : par exemple 5 estimations pour 3 animaux distincts. On doit bien calculer la moyenne pour chaque animal et ensuite calculer variance et écart-type en prenant la moyenne de chacun et en prenant n =3 III.VI. La distribution normale La distribution normale a pour caractéristiques : Unimodale : un seul centre Symétrique : autour de ce centre 2 paramètres importants : o Moyenne o Ecart-type Modèle : ce n’est pas forcément vrai (personne ne mesure 1cm ou 2km) mais utile dans de nombreux cas pour représenter une répartition archétypique III.VI.I. Distribution normale centrée On utilise principalement la forme centrée réduite Formule : On indique que le centre est le 0 Une unité correspond à la valeur de l’écart-type (σ) Points de repère : o Entre -σ et σ: 68,2% de la population o Entre -2σ et 2σ : 95,4% o Entre -3σ et 3σ : 99,7% Exemple : Répartition des tailles ( = 170cm, σ = 10cm) P(taille > 200) : 200 > 3σ donc 0,3%/2 = 0,15% P(|taille - 170| > 20cm) : 100% - 95,4% = 4,6% Graphiquement, on indique en axe des abscisses le paramètre étudié et en ordonné la densité de fréquence relative. La distribution normale est fréquemment rencontrée car elle représente correctement des événements aléatoires et indépendants lorsqu’ils sont regardés en moyenne. III.VI.II. Distribution log-normale Certaines données ne suivent pas la loi normale mais suivent plutôt une forme logarithmique de base 10 : lorsque l’on applique log10(x) à toutes les valeurs x, on retrouve une forme normal. On calcule alors la moyenne et l’écart-type sur ces valeurs. Pour retrouver les valeurs contenant des encadrements, on peut utiliser deux méthodes : Calculer les valeurs de l’intervalle et se basant sur les log10 (par exemple ±σ) et remonter ces x valeurs en faisant 10 Calculer la moyenne géométrique et l’écart-type géométrique (puissance 10 de la moyenne et de l’écart-type) et multiplier ces chiffres entre eux pour avoir Ex : dans une étude sur les dons de sang on observe les caractéristiques suivantes et les indicateurs à y associer : Age : distribution qui n’est pas normale o On privilégie donc les indicateurs de la médiane, les quartiles, le min, le max... Sexe : booléen o Proportion Niveau d’hémoglobine (g/dL) : distribution normale o Moyenne et écart-type Volume globulaire moyen : distribution normale o Moyenne et écart-type Concentration en ferritine : o Moyenne géométrique et écart-type géométrique o Log10 de la moyenne et log10 de l’écart-type La distribution log-normale décrit bien les événements lorsqu’ils y a des éventements aléatoires et indépendants qui se multiplient entre eux. De nombreux événements biologiques sont de nature multiplicatives. III.VI.III. Distinction entre les limites normales et les valeurs pathologiques Il faut bien distinguer les limites associées à des données statistiques et les seuils à partir desquels il y a des conséquences négatives. On doit donc bien distinguer les limites statistiques des valeurs pathologiques : «normalité statistique ne veut pas dire normalité physiologique». III.VII. Intervalle de confiance sur une moyenne On a déjà vu l’IC sur une proportion avec la méthode de Wald modifiée. Exemple : tir sur une cible On peut calculer un intervalle (distance) pour lequel on a 80% des tirs car l’on connaît la cible ce qui n’est pas le cas de la plupart du temps. Lorsqu’on ne connaît pas la cible, on va inverser le raisonnement : on connaît l’intervalle de confiance à 80% dans une situation similaire on suppose que la valeur observée constitue la cible On projette l’intervalle de confiance à partir de la valeur observée pour dire quelle cible était visée avec 80% de certitude III.VII.I. Méthode de ré-échantillonnage Sur base des valeurs déjà contenues dans l’échantillon, on va faire des tirages aléatoires au sein de cet échantillon pour obtenir des moyennes «dérivées» qui peuvent inclure plusieurs fois une même valeur de l’échantillon. Si l’on fait un grand nombre de ré-échantillonnage, on obtient un grand nombre de valeur qui se répartissent/distribuent selon une loi normale (pour des valeurs uniques ou non-multiplicatives). On obtient une distribution de moyennes qui possède elle-même : une moyenne un intervalle de confiance On peut appliquer cette moyenne des moyennes et cet IC à l’ensemble de la population. Exemple : on essaye d’estimer la moyenne de l’amphi à partir d’un échantillon de 5 notes. A partir de ces 5 notes on fait un grand nombre de tirages aléatoires et l’on calcule ces moyennes. On obtient une distribution normale des moyennes calculées permettant de déterminer un intervalle de confiance à X% que l’on peut appliquer à la population IC94%[5-11]. Hypothèses : Tirage aléatoire (ou représentatif) Individus indépendants A noter : on n’a pas besoin de l’hypothèse de distribution normale III.VII.II. Méthode de l’erreur standard - T de student L'erreur standard peut être considérée comme l'écart-type de la distribution (théorique) de toutes les erreurs qui seraient commises en faisant varier les échantillons avec lesquels on opère (distribution supposée normale et de moyenne nulle la plupart du temps). Attention à l’utilisation des barres d’erreurs car elles peuvent avoir 1) des significations différentes et 2) représenter des réalités au niveau des mesures très divergentes. Distribution de t : A ne pas apprendre par coeur Mx : moyenne de l’échantillon Mp : moyenne de la population Sx : écart-type de la moyenne de l’échantillon par rapport à la moyenne de la population n : la taille de l’échantillon Sx : Erreur standard moyenne La valeur de t permettant de retrouver un intervalle de confiance souhaité est donné par des tables qui indiquent les t* en fonction de la taille de l’échantillon et de l’IC souhaité. ) Hypothèses : Tirage aléatoire (ou représentatif) Individus indépendants (on n’a pas plusieurs fois le même) Distribution approximativement normale dans la population III.VIII. Intervalle de confiance d’une proportion : 2 méthodes ont déjà été vues : Méthode de Wals modifiée Ré-échantillonage Il est également possible d’utiliser la distribution binomiale qui permet de savoir la probabilité d’obtenir une valeur donnée en fonction d’une proportion et la taille de l’échantillon. Il faut donc tester chaque valeur possible avec la distribution binomiale pour savoir si on a une probabilité forte ou faible d’avoir cette valeur là. En regardant les valeurs pour la loi binomiale de telle sorte que la probabilité de la loi binomiale soit égale à 2,5% on obtient les bornes. Exemples questions : 1. Moyenne avec bornes des IC95% 2. Indique où l’on pourrait attendre la moyenne dans la population 3. Valeurs précises + 4. Boîte à moustache Exercice à faire : Mx = 4 Sx = 2,1 n = 199 1. Que vaut la charge virale moyenne dans la population de laquelle provient l’échantillon 2. Quelles hypothèses fait-il faire pour estimer cette valeur 3. Quelles sont les limites entre lesquelles on s’attend à retrouver la charge virale de 95% des individus ? 4. Quelles hypothèses fait-il faire pour l’estimer. 1. Calculer l’intervalle de confiance : Mx ± t* SEM = 4,0 ± 1,97 * 2,1/√199 = [3,7;4,3] 3,7 4,3 En nb de copies par mol : [10 :10 ] 2. Échantillon aléatoire (représentatif), individus indépendants, mesure correcte, distribution normale des valeurs individuelles dans la population - 3. Calcul de l’intervalle de prédiction à 95% : Mx ± 2S = [-0,2 ; 8,2] (nb copies par mL : [10 0,2 8,2 ;10 ] 4. Échantillon aléatoire (représentatif), individus indépendants, mesure correcte, distribution normale des valeurs individuelles dans la population Attention à ne pas confondre intervalle de confiance et intervalle de prédiction IV. p-valeur et signification statistique IV.I. P-valeur La p-valeur est une des valeurs les plus fréquemment rencontrées sur les extracts des études statistiques ce qui montre son importance en biostatistiques. Inverse de la moyenne des inverses, sous-pondère légèrement les valeurs extrêmes La p-valeur repose sur le principe d’indiquer si onExponentiel est en capacité d’affirmer de la moyenne statistiquement des logarithmes, utilisé qu’une hypothèse a été vérifiée ou non. pour les séries de valeurs de nature exponentielle et positives La p-valeur est la probabilité d’observer un résultat aussi (ou plus) extrême que celui observé lorsque l’hypothèse nulle est vraie Elle doit donc être calculée à partir de la répartition de résultats hypothétiques sur l’hypothèse nulle. Cette hypothèse est souvent l’inverse de ce qui veut être démontré (ex : hypothèse que l’agent antibactérien n’a pas d’effet sur le risque d’infection) On va utiliser des valeurs connues d’intervalle de confiance et l’on indique le chiffre qui correspond au % de chance que ce résultat soit extrême par rapport à l’hypothèse testé (on cherche donc à avoir une p-valeur la plus faible possible) Exemple (dans le livre) : lancés de pièces de monnaies (16 pile sur 20 lancés) On cherche à tester si la pièce est trafiquée ou non (hypothèse bilatérale) 1. On s’appuie sur une distribution binomiale pour avoir la distribution et donc l’IC : 16P/20 a une probabilité de 0,462% (voir table) 2. On regarde les valeurs pour 20P/20, 19P/20... (et idem pour 20F/20, 19F/20) pour identifier la p-valeur : 1,2% de chances que l’on ait ce tirage 3. On conclut que la pièce est certainement trafiquée Pour tester l’hypothèse que la pièce est lestée sur le côté pile (hypothèse unilatérale), on ne prendrait que les valeurs pour 20P, 19P,... et on aurait donc une p-valeur de 0,6%. Dans la majorité des cas cela n’a pas de sens de faire de l’unilatéral et c’est plutôt une pratique pour biaisée la lecture. L’utilisation de p-valeurs unilatérales a pour avantage de réduire le nombre d’individus dans l’échantillon et donc le coût des études. Elle nécessite cependant d’avoir bien posé son hypothèse unilatérale en amont de l’étude. En général, il faut privilégier les intervalles de confiance. Comment expliquer une p < 0,05 ? Effet important : Effet minime : mais sur une très large population Effet nul / Erreur de type 1 : pas de chances, cela fait partie des 5% extrêmes. Cet effet est réduit par la taille de l’échantillon Effet inverse / Erreur S : on se trompe dans le sens, l’interprétation du résultat Design inadéquat : écarts entre les hypothèses et la variable observée Comparaison multiples : plus on multiplie les analyses plus on a de chances de le trouver. On peut minimiser/annuler ce risque via : Présenter toutes les données (transparence) Corriger la p-valeur pour être cohérent avec le dispositif Refaire une étude sur un autre échantillon (étude confirmatoire) N dynamique : augmentation progressive de la taille de l’échantillon jusqu’à atteindre la p- valeur souhaitée Et un p > 0,05% ? Pas d’effet : Effet minime : que l’on n’a pas vu Effet important / Erreur de type 2 : pas de chance, malgré des effets réels l’échantillon observé est tombé dans un extrême Design inadéquat Exemple thérapie intensive : Signification IC : dans l’échantillon on observe un hazard ratio de 0,68. Extrapollé à la population, on pense que le hazard ratio va être entre 0,56 et 0,84. Signification p-valeur : Plusieurs interprétations à regarder Effet important Effet minime : si l’IC était entre 0,96 et 0,99 on pourrait pense que c’est minime, là non Effet nul / Erreur type I : la p-valeur est vraiment très faible donc très peu probable d’avoir un écart aussi grand (0,68) par hasard Effet inverse : Encore moins probable que l’effet nul Design inadéquat : rien ne le laisse penser Comparaisons multiples : à vérifier dans le protocole de l’étude Echantillon dynamique : à vérifier dans le protocole IV.II. Test d’hypothèses Le principe est de comparer deux hypothèses concurrentes et de pouvoir «choisir» entre les deux hypothèses en fonction d’un seuil de signification déterminée séparant la limite entre deux hypothèses. On aura bien sûr un risque d’erreur que l’on a également grâce aux intervalles : Hypothèse 1 : 97,5% d’être correct et 2,5% de risque d’avoir un erreur de type 1 ou erreur alpha Hypothèse 2 : 90% d’être correct et 10% de risque d’avoir un erreur de type 2 ou erreur beta On peut avoir des intervalles de confiance asymétriques entre les hypothèses pour montrer que les conclusions de chacune des deux hypothèses n’a pas le même effet : Ex : Hypothèse 1 : X n’a pas commis de crime : on va avoir tendance à mettre une valeur élevée pour ne pas envoyer des innocents en prison / Traitement a n’est pas nocif aura une valeur plus élevée Hypothèse 2 : X a commis un crime : on va mettre un IC plus faible car on peut davantage prendre le risque de ne pas condamner un coupable / Traitement a est actif aura une valeur moins élevée L’avantage de la méthode est qu’on fixe à l’avance les hypothèses à tester et les seuils et qu’on n’a plus qu’à lire le résultat en fonction de l’observation. Cette méthode est notamment utilisée lorsqu’il faut prendre une décision. Exemple : les antibiotiques sont-ils efficaces sur les plaies dans la population en général? P1 : infection avec antibiotique au niveau de la population P2 : infection sans antibiotique au niveau de la population Échantillon de 972 p1 : avec antibiotique = 0,066 p2 : sans antibiotique = 0,110 p1/p2 = 0,066/0,110 = 0,6 Si l’antibiotique n’a pas d’effet, est-ce qu’on pourrait obtenir ce ration de 0,6 ? 1. La distribution nous dit que 99% des ratio sont compris entre 0,6 et 1,66 (1/0,6) 2. Donc la p-valeur vaut 1% 3. On conclut que les résultats ne sont pas compatibles avec une absence d’effet Via les intervalles de confiance, on aurait eu IC95 = [0,38 - 0,90] et donc on aurait rejeté l’hypothèse et l’on aurait pu en plus dire que l’utilisation de l’antibiotique entraîne une diminution de 10% à 62% des infections. Lorsque l’on étudie des observations, il peut être utile de recourir à des ratios qui vont représenter l’effet du traitement. On divise par n-1 et non n car σ² porte un biais sous-estimation au niveau de la population Si risque relatif = 50% : les personnes sous traitements ont un risque de 50% d’avoir une observation par rapport au groupe contrôle (qui lui a un taux de 100% par définition). A noter, on peut calculer un IC lié à ce rapport de risque et obtenir un intervalle sur l’ensemble de la population (formule non-vue), et à partir de là définir l’effet du traitement (division par 2 du risque dans notre exemple + IC). IV.III. Erreur de type 1 et 2 Le CV est intéressant à avoir lorsqu’on manipu Ccl : H0 non-rejetée Ccl : H0 rejetée compare plusieurs séries, exprimé en % (H0 est donc vraie) (H0 est donc fausse) H0 vraie A B : Erreur de type 1 A+B H0 faux C : Erreur de type 2 D C+D A+C B+D Erreur de type 1 (faux positif) : conclure que H0 est faux (rejetée) alors qu’elle est vraie Erreur de type 2 (faux négatif) : conclure que H0 est vrai (non-rejetée) alors qu’elle est fausse Le Taux de Faux positifs (TFD) : Prenons le test d’hypothèse sur des lancers avec H1 : vise la cible 1 et H2 : vise la cible 2. On a un IC90 pour H1 (5% d’erreur de type 1) et un IC60 pour H2 (20% d’erreur de type 2). Observation H0 Observation H1 Conclusion H0 475 100 575 Conclusion H1 25 400 425 500 500 P (H | p < 5%) - faux négatif = 25/425 P (H0 | p < 5%) - faux positif = 100/575 Cela signifie qu’il faut avant même le début de l’étude bien poser les poser la probabilité subjective de véracité de l’hypothèse initiale testée pour pouvoir correctement interpréter Exercice : Durée des symptômes grippaux avec traitements hométopathique On observe des 1) comparaisons multiples sur 2) des sous-groupes et une seule p-valeur significative. Si l’on sait de plus que le traitement est homéopathique, on peut plus facilement interpréter les résultats de manière critique. Synthèse : La p-valeur mesure la cohérence entre une statistique et une hypothèse en mesurant à quel point une statistique est extrême dans la distribution des résultats attendus sous cette hypothèse. Elle permet de déterminer si on a un écart significatif ou non (montrer que l’effet est «trop extrême» par rapport à pas d’effets et qu’il y a donc un effet réel), le risque de comportement de «p-hacking» dans la communauté scientifique Variabilité d’une statistique en fonction de N : Rappelons que : Standard deviation / ecart-type : s’applique à la observation unitaire Standard error / erreur standard : s’applique à une statistique (une moyenne par exemple) La plupart du temps on travaille avec des erreurs standards et l’on peut observer que la probabilité d’avoir une observation qui sorte de l’intervalle de confiance décroit rapidement avec la taille de l’échantillon. Lorsqu’on fait des ré-échantillonages sur une base de 20 valeurs : la moyenne avec un tirage unitaire répété est un écart-type et l’on a une forte variabilité [146-192], la moyenne sur 4 tirages répété aura une erreur-standard beaucoup plus faible et mieux centrée [165-180], sur 64 tirage on sera encore plus centré avec une dispersion faible [170-175] etc. IV.IV. Puissance statistique L’étude de puissance est à faire en amont de l’étude, elle permet de déterminer (en supposant que le traitement à un effet) la probabilité pour qu’on puisse observer un effet significatif (moyens pour mettre en valeur un effet). La puissance est la fraction des expériences qui mèneront à une conclusion statistiquement significative que H0 est rejetée (on ne prend donc que la ligne pour H0 est faux) La puissance est liée à : Taille de l’échantillon Ampleur de la dispersion Taille de l’effet que l’on suppose exister Seuil de signification choisi Elle se calcule en repartant du tableau de synthèse : Ccl : H0 non-rejetée Ccl : H0 rejetée (H0 est donc vraie) (H0 est donc fausse) H0 vraie A B : Erreur de type 1 A+B H0 faux C : Erreur de type 2 D C+D A+C B+D Expérience : temps de durée sur un pied (n = 10, Moyenne : 55 ± 48) 3 hypothèses à tester : H0 : stabilité équivalente entre F et H H1 : F plus stable que H d’au moins 5 sec (valeur arbitraire) H2 : H plus stable que F d’au moins 5 sec Au travers d’un ré-echantillonage, on calcule 1000 fois la différence entre 2 échantillons successifs on observe qu’on a 1) une distribution normale, 2) centrée sur zéro, et 3) 95% des différences sont entre -30 et +30 sec --> Définition de l’hypothèse nulle On peut donc prévoir la forme des hypothèses 1 et 2 : H1 : décalage de 5 sec du centre avec la même forme Si l’on compare avec l’hypothèse nulle on observe que la zone concernée (équivalent à l’IC95 à +30) serait extrême avec un IC de 90% sur la courbe attendue en H2 On n’observerait une différence «significative» que dans 10% des cas même si l’hypothèse est vraie : puissance de 10% (avant même de connaître le résultat de l’étude) Pour contrecarrer ce problème il faut augmenter la taille de l’échantillon. Puissance : probabilité d’observer un effet Conventionnellement on attend une puissance d’au-moins 80%. On a le droit de pondérer les hypothèses en fonction de son jugement personnel (par exemple 66%, 17%, 17%). On peut aussi construire un tableau des risques : Conclusion H2 H0 H1 Si est 2,5% 95% 2,5% H0 660 vrai (16,5) (627) (16,5) 1% 89% 10% H1 170 (2) (151) (17) 10% 89% 1% H2 170 (17) (151) (2) 35,5 35,5 Exemple : 1% signifie qu’on a 1% de chance que l’expérience nous dise que H2 est vrai alors que c’est H1 qui est vrai Taux de faux positif (H0) = CCL H0 vrai alors que faux (en vert) / CCL H0 faux (vert + bleu) = 33/71 = 0,46 En tirant un échantillon de 10 filles et 10 garçons on observe une écart des moyennes de : -19s [-64;+26] que conclure ? H0, H1 et H2 sont possibles Sous l’hypothèse H0, la p-valeur de 0,39 permet de dire que le résultat n’est pas extrême On peut distinguer 3 types d’étude: Étude de supériorité : le nouveau traitement fonctionne mieux que le traitement standard (souhait de rejeter l’hypothèse nulle, traitement innovant) : on cherche à montrer que l’écart-type est supérieur à 0 Étude d’équivalence : le nouveau traitement fonctionne aussi bien que le traitement standard (souhait de valider l’hypothèse nulle, traitement générique). On cherche à montrer que l’écart- type se situe entre les deux bornes fixées ex-ante Test de non-infériorité : le nouveau traitement ne fonctionne pas plus mal que le standard, ce qui permet de ne prendre que la borne inférieure comme référence. Un des risques est de comparer à une traitement qui ne fonctionne pas (exemple homéopathie vs cryogénisation) V. Comparaisons Les méthodes de comparaison seront structurées autour de 5 catégories : Données Tableau de contingence Graphique Statistiques Paramètres V.I. Comparaison de proportions Données : Données binaires : survenue d’une événement sous traitement ou sous placebo Tableau de contingence : Embolie Pas d’embolie Total Placebo 73 756 829 Traitement 14 826 840 87 1582 1669 Statistique calculée : Risque P : Rp = 73/829 = 0,088 Risque T : Rt = 14/840 = 0,017 Risque relatif : RR = Rp/Rt = 5,3 Risque attribuable : RA = Rp-Rt = 0,071 NNT (number needed to treat) : NNT = 1/0,071 = 14 Paramêtre : Risque P : πp = 0,088 ± 0,021 (méthode de Wald) Risque T : πt = 0,017 ± 0,009 (méthode de Wald) Risque relatif πp/πt = [3,0 ; 9,2] mesure de l’ampleur de l’effet NNT : [10,6 ; 20] P-valeur : p < 0,0001 Graphique : Dans le cas où les données sont binaires, les graphiques n’apportent pas grand chose Chi-carré : Lors de l’analyse des données binaires, on peut soit calculer le risque relatif et l’intervalle de confiance Soit faire une analyse de fréquence avec le chi-carré On définit les proportions attendues (par ex : 50/50) On regarde les observations (par ex : 67/33) Le test du chi-carré permet de comparer les observations à l’attendue V.II. Comparaison de courbes de survie Données : Pour chaque individu le taux de survie, en connaissant l’appartenance au groupe. Attention aux données censurées Tableau de contingence Non utilisé Graphique : Statistique : Temps médian T : 146 mois Temps médian P : 40,5 mois Taux de survie à 5 ans T : 80% Taux de survie à 5 ans P : 30% Hazard Ratio (à chaque temps on regarde la proportion de décès dans chaque groupe et on fait le ratio, traduit «à quel point on meurt plus vite dans un groupe que dans l’autre) : 0,42 Paramêtre : Hazard ratio : [0,19 ; 0,92] P-valeur : p = 0,03 V.III. Comparaison de deux moyennes - test de t non-pairé Données : Mesure continue pour les individus de deux groupes. On regarde la valeur de la mesure en fonction d’un facteur Graphiquement : Nuage de points + moyenne + IC Statistiques Moyenne groupe V : 53,71 Moyenne groupe J : 30,17 Ecart des moyennes : 23,55 Paramêtre : Moyenne + IC V: 53,71 ± 5,36 Moyenne + IC J : 30,17 ± 3,66 Ecart des moyennes + IC : 23,55 ± 6,67 P-valeur : 0,26 R² (mesure de «parmi toute la variabilité, X% s’applique par le facteur étudié) : 0,45 V.IV. Comparaison de deux groupes pairés Données : Données pairées deux à deux : on regarde les effets en fonction d’un traitement ou de son placebo chez un même individu. On a donc 2 données pour chaque individus et l’on peut comparer les résultats pour obtenir une différence par individu. Représentation graphique : Lier chaque paire par une droite Nuage de point des différences Statistiques : Moyenne des différences Paramêtres : Moyenne des différences + IC : [0,004 ; 5,230] P-valeur : 0,11 Z-score : nombre d’écart-type par rapport à la moyenne, permet de définir la «valeur» d’un individu par rapport à la moyenne et à l’écart-type. VI. Corrélation et régression Ensemble des statistiques permettant de savoir s’il y a des liens entre des variables continues. Exemple : X Y (x- (y- (x-Mx)² (y-My)² (x- (y- Mx) My) Mx)/ My)/ Sx Sy 0 0 - -4,8 31,3 23,0 -1,6 -1,7 5,6 6 4 7 5 +1,4 +0,2 1,96 0,04 0,4 0,1 5 5 -0,6 +0,2 0,36 0,04 -0,2 0,1 7 7 +1,4 +2,2 1,96 4,84 0,4 0,8 9 7 +4,4 +2,2 11,5 4,84 1 0,8 6...... 5,6 4,8 0 0 Variance : S²x = somme((x-Mx)²/4) = 11,8 --> Ecart-type : Sx = 3,4 Variance : S²y = somme((y-My)²/4) = 8,2 --> Ecart-type : Sy = 2,8 (x-Mx)/Sx est le Zscore, il décrit la distance relative à l’écart-type pour chaque valeur. Coefficient de corrélation : Dans notre échantillon : r = 0,76 Sur l’ensemble des répondants : r = 0,23 Le calcul de l’IC nous permet d’avoir : [0,03 ; 0,41] Hypothèses à vérifier: Échantillon aléatoire et représentatif Valeurs x et y pairées Échantillonnage dans une seule population (pour éviter d’avoir 2 populations homogènes mais avec des comportements très différents) Individus indépendants (non-influencé par une tierce personne par exemple) Pas de lien mathématique entre X et Y Pas de contrôle expérimental de X (X n’a pas été figé à certain niveau - difficulté du cours - avec un Y mesuré - satisfaction. Dans ce cas on chercherait à voir un lien de causalité et non de corrélation) X et Y sont issues d’une distribution normale La relation entre X et Y est linéaire (si elle est par exemple logarithmique on aurait d’autres méthodes) Il n’y a pas de valeurs extrêmes (les outliers sont à censurer autant que possible) Régression dans un cadre expérimental : Dans un cadre expérimental, on maîtrise l’une des valeurs (nombre de flexions) et l’on va mesurer la seconde (le pouls). On observe un nuage de points et l’objectif va être de prédire les valeurs en fonction de la variable de contrôle : Y = b0 + b 1. X B0 : intercept, c'est-à-dire la valeur de Y lorsque X est égal à zéro. 97 ou [77;117] B1 : pente de la droite, 2 ou [-1,4 ; 5,7] Hypothèses de la régression linéaire : La relation est linéaire Les résidus (écart entre la variable mesurée et les valeurs prédites) suivent une distribution normale Homoscédasticité : fait que la variabilité est à peu près la même partout Les résidus sont indépendants X et Y ne sont pas mathématiquement relié X est connu sans erreur Les extrapolations sont dangereuses à partir du moment où l’on sort de la zone de mesure de x (ex : on peut donner un écart-type entre 0 et 10, mais on ne pourra pas prédire le poul après 100 flexion) VII Synthèse On récolte des données sur un échantillon et on les synthétise via des statistiques de 3 types : série de données, graphique notamment : histogramme, courbe de survie, boite à moustache, barre d’erreur... statistiques descriptives : proportion, dénombrement, temps de survie médian, moyenne, écart- type... mesure des associations (analyse bivariée) : risque attribuable, NNT/NNH, différence de taux, hazard ratio, écart des moyennes, coefficient de corrélation, équation de la droite de régression Pour passer de l’échantillon à la population on utilise 3 outils : Test d’hypothèse pour faire un choix et inclus un risque d’erreur Lien entre N et la puissance (probabilité de voir un effet s’il existe) Prise en compte de la probabilité a priori (taux de faux positifs) : pondération des hypothèses pour déterminer l Démonstration d’égalité (ou d’équivalence, ou de non-inférioirité) Direction du test : la plupart du temps bilatéral mais parfois unilatéral p-valeur : cohérence entre une statistique et H0 7 explications pour un résultat incompatible 5 explications pour un résultat compatible IC : 95% des statistique à plus ou moins x écart-type ou écart moyen. Selon les études on a différents jeux d’hypothèses. Les outils d’inférence statistiques ont pour défaut : Sensibles à la répétition : on peut obtenir un résultat extrême en étant patient et en essayant un nombre suffisant de fois. Les études statistiques doivent ainsi être déclarées en amont pour être sûr Aucune étude statistique ne pourra récupérer un design de l’étude déficient

Use Quizgecko on...
Browser
Browser