Statistiques pour Médecins - Estimation - PDF
Document Details
Uploaded by InviolablePrehnite8852
Faculté de Médecine
Christophe Combescure, Angèle Gayet-Ageron
Tags
Summary
Ce document présente des concepts statistiques fondamentaux liés à l'estimation de paramètres dans un contexte médical. Il détaille les analyses descriptives, les concepts d'échantillonnage, et les mesures d'association. L'utilisation d'exemples concrets rend la compréhension des concepts plus accessible.
Full Transcript
STATISTIQUES POUR MEDECINS Estimation Christophe Combescure, Angèle Gayet-Ageron Unité d’Appui Méthodologique du CRC FACULTÉ DE MÉDECINE 1 Rappel: Analyses descr...
STATISTIQUES POUR MEDECINS Estimation Christophe Combescure, Angèle Gayet-Ageron Unité d’Appui Méthodologique du CRC FACULTÉ DE MÉDECINE 1 Rappel: Analyses descriptives Description des données est une phase initiale importante de l’analyse des données Comprendre la composition de l’échantillon Décrire objectivement les résultats Statistiques descriptives – résumé simple et informatif des données Représentations graphiques: – message visuel clair – montrer toutes les données – rapport information/encre élevé 2 Rappel Description d’une variable (1) Relation aux chiffres Votre taille corporelle (cm) Variable qualitative ordinale Variable quantitative continue N=383 observations N=382 observations N (%) Moyenne : 167.0 cm Déteste 13 (3.4%) Ecart type: 21.5 cm N'aime pas trop 65 (17.0%) Médiane: 169 cm Indifférent.e 104 (27.2%) Ecart inter-quartile: 163 à 175 cm Aime assez 165 (43.1%) Adore 36 (9.4%) Total 383 (100%) La représentation graphique de la distribution de la taille met en évidence des valeurs aberrantes 3 Rappel Description d’une variable (2) Votre taille corporelle (cm) Variable quantitative continue N=374 observations Moyenne : 169.7 cm Ecart type: 8.6 cm Médiane: 170 cm Ecart inter-quartile: 163 à 175 cm 4 Rappel: Description conjointe de deux variables (1) Maturité option science / math. Non Oui Déteste 7 (6.1%) 6 (2.2%) N'aime pas trop 26 (22.8% 39 (14.5%) Indifférent.e 29 (25.4%) 75 (27.9%) Aime assez 48 (42.1%) 117 (43.5%) Adore 4 (3.5%) 32 (11.9%) Total 114 (100%) 269 (100%) 5 Rappel: Description conjointe de deux variables (2) Taille moyenne (écart type): - étudiantes (n=268) : 166.3 cm (6.7 cm) - étudiants (n=103) : 178.4 cm (6.6 cm) 6 Rappel: Description conjointe de deux variables (3) 7 Rappel Mesures d’association Pour évaluer: – effet d’une intervention expérimentale par rapport à un comparateur – ampleur de la relation entre une exposition et un problème de santé Le type de mesure d’association dépend de la nature statistique des variables: – différence de moyenne – différence ou ratio de proportion – … 8 Objectifs Comprendre les notions suivantes – Estimation de paramètres – Intervalle de confiance – Echantillonnage – Types d’erreur (aléatoire et systématique) Chapitres Petrie/Sabin 7 – 10 – 11 9 Inférence Principe Comment avoir une idée de la qualité de la grappe de raisin ? Goûter un des raisins : si le raisin est bon, vous concluez que la grappe est bonne si le raisin est mauvais, vous concluez que la grappe est mauvaise Vous généralisez à l’ensemble de la grappe le goût du raisin testé Inférence 10 Inférence Echantillonnage Comment sélectionner le raisin à goûter ? Sélection subjective ? risque de goûter surtout les jolis raisins => inférence incorrecte Une sélection aléatoire protège d’une sélection subjective Plusieurs raisins: échantillon Echantillon 11 Inférence Inférence statistique (1) Paramètres (prévalence, risque, effet d’une Population intervention: différence de risque ou de moyennes,…) Echantillonnage (recrutement des Informent participant.es) Données observées Inférence statistique 12 Inférence Inférence statistique (2) 1. Question ou hypothèse de recherche posée à propos du monde en général (population cible), concernant un paramètre 2. Le paramètre n’est pas observable directement. 3. Sélection d’un échantillon approprié de la population: – représentatif – de taille suffisante 4. A partir des données de l’échantillon, on obtient une estimation du paramètre 5. Application des données de l’échantillon à l’hypothèse ou paramètre: inférence statistique 6. Réponse apportée avec un degré d’incertitude, une imprécision 13 Estimation d’une prévalence ou d’un risque On veut connaître la prévalence d’allergie aux pollens dans la population (paramètre) Population Prévalence allergie = p Allergie (non/oui): variable qualitative Echantillon Recueil de données dans un échantillon aléatoire de N personnes Observation de x cas d’allergie Prévalence estimée Estimation du paramètre «prévalence d’allergie»: 𝑝Ƹ = x/N 14 Estimation d’une prévalence ou d’un risque Exemple N Engl J Med 2005;352:1550-6 Sur les 488 coureur.ses analysées, 62 cas d’hyponatrémie sont identifiés Dans l’échantillon, le risque d’hyponatrémie est 12.7% (62/488) Que peut-on dire du risque d’hyponatrémie dans la population des coureur.ses de marathon ? 15 Du paramètre à l’estimation Simulations Objectif de la simulation: observer la distribution des estimations d’une prévalence lorsqu’on échantillonne de manière aléatoire plusieurs fois la même population (avec la même prévalence dans la population) Etapes de la simulation: 1) population avec une prévalence d’allergie de 30% 2) échantillonnage aléatoire de 20 personnes de cette population 3) distribution des estimations de prévalence sur un grand nombre d’échantillons 4) mêmes procédures avec des échantillons de 50 personnes http://www.distributome.org/V3/exp/BinomialExperiment.html 16 Du paramètre à l’estimation Enseignement de la simulation Echantillons aléatoires de n=20 personnes Prévalence allergie dans la population: 30% 3 cas d’allergie observés dans cet échantillon => prévalence estimée = 3/20 = 15% 7 cas d’allergie observés dans cet échantillon => prévalence estimée = 7/20 = 35% L’estimation du paramètre : - peut varier d’un échantillon aléatoire à l’autre - n’est pas forcément égale à la valeur du paramètre 17 Du paramètre à l’estimation Enseignement de la simulation Echantillons aléatoires de n=20 personnes Prévalence allergie dans la population: 30% Distribution du nombre de cas d’allergie par échantillon Le nombre de cas le plus probable dans un échantillon est 6 (prévalence estimée = 30%) Proportion attendue Il est probable que dans un échantillon aléatoire on observe d’échantillons entre 4 et 8 cas Il est moins probable d’observer 2-3 ou 9-10 cas Il est peu probable d’observer moins de 2 cas ou plus de 10 cas 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nombre de cas d’allergie observés dans l’échantillon 18 Du paramètre à l’estimation Enseignement de la simulation Proportion attendue d’échantillons Proportion attendue d’échantillons Prévalence Prévalence Prévalence estimée = 0% estimée = 30% estimée = 100% Taille d’échantillon augmente distribution des estimations plus resserrée autour de la prévalence 30% 19 (i.e. variance de cette distribution plus faible) Du paramètre à l’estimation Distribution des prévalences estimées L’estimation la plus fréquente est égale à la valeur du paramètre (pic de la distribution) Des estimations différentes de la valeur du paramètre sont possibles plus l’estimation est éloignée de la valeur du paramètre, moins elle est fréquente ( => les estimations très éloignées sont très peu probables) Lorsque la taille d’échantillon augmente: la variance de la distribution des estimations diminue (les estimations ont tendance à être plus proches de la valeur du paramètre) Cette distribution est connue grâce à la théorie des probabilités 20 Compatibilité entre estimation et paramètre Distribution du nombre de cas d’allergie par échantillon Proportion attendue d’échantillons Sur un grand nombre d’échantillons aléatoires de 20 personnes de la population, on s’attend à ce que dans 95% des échantillons on observe entre 2 et 10 cas (= prévalence estimée entre 10% et 50%) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nombre de cas d’allergie observés dans l’échantillon ≈ 2.5% des ≈ 95% des ≈ 2.5% des échantillons échantillons échantillons Prévalences Prévalences Prévalences estimées < 10% estimées entre estimées > 50% 21 10% et 50% Compatibilité entre estimation et paramètre Distribution du nombre de cas d’allergie par échantillon Proportion attendue d’échantillons L’intervalle de 10% à 50% est l’ensemble des prévalences (dans des échantillons de 20 personnes) compatibles avec une prévalence dans la population de 30% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Les prévalences 50% dans les échantillons sont peu probables et ne sont Nombre de cas d’allergie observés dans l’échantillon pas considérées comme compatibles avec une prévalence dans la population de 30% ≈ 2.5% des ≈ 95% des ≈ 2.5% des échantillons échantillons échantillons Prévalences Prévalences Prévalences estimées < 10% estimées entre estimées > 50% 22 10% et 50% De l’estimation au paramètre Incertitude de l’estimation En pratique le.a chercheur.se : 1) n’a qu’un seul échantillon 2) ne connaît pas la prévalence dans la population Si dans un échantillon de 20 personnes, 7 cas sont observés: 0% 100% Prévalence dans la population ?% ?% Ensemble des valeurs de prévalence dans la population compatibles avec les données de l’échantillon 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nombre de cas d’allergie observés dans l’échantillon 7 cas : prévalence estimée = 35% 23 De l’estimation au paramètre Incertitude de l’estimation Prévalence dans Compatible la population = 30% avec les 7 cas observés Proportion attendue d’échantillons Prévalence dans Compatible la population = 50% avec les 7 cas observés Prévalence dans Pas compatible la population = 75% avec les 7 cas observés prévalence estimée = 35% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 Nombre de cas d’allergie observés dans l’échantillon de l’étude De l’estimation au paramètre Incertitude de l’estimation Proportion attendue d’échantillons Prévalence dans la population = 5% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Prévalence dans la population = 80% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nombre de cas d’allergie prévalence estimée = 35% Des valeurs de paramètre de 5% ou 80% paraissent peu compatibles avec l'observation d'une estimation de 35%. On rejette donc que la valeur du paramètre est ≤5% ou ≥80%. Quid de 6%, 7%, 50% ou 78%? 25 De l’estimation au paramètre Incertitude de l’estimation Proportion attendue d’échantillons Prévalence dans la population = 15% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Prévalence dans la population = 59% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nombre de cas d’allergie prévalence estimée = 35% 15% est la plus petite valeur de prévalence dans la population compatible avec les données 59% est la plus grande valeur de prévalence dans la population compatible avec les données Toutes les valeurs de prévalence dans la population entre 15 et 59% sont compatibles Aucune valeur de prévalence 59% n’est compatible avec les données. 26 De l’estimation au paramètre Intervalle de confiance (IC) à 95% d’une proportion En pratique, le.a chercheur.se n’a qu’un seul échantillon Si dans un échantillon de 20 personnes, 7 cas sont observés: Prévalence dans la population 0% 100% Ensemble des valeurs de 15% 59% Intervalle de confiance à prévalence dans la 95% population compatibles avec les données de l’échantillon 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nombre de cas d’allergie observés dans l’échantillon 7 cas : prévalence estimée = 35% 27 IC 95% et taille d’échantillon Proportion attendue d’échantillons Prévalence dans la population = 21% 0 14 40 Prévalence dans la population = 51% 0 14 40 Nombre de cas d’allergie Si on observe 14 cas dans un échantillon de 40 personnes (prévalence estimée = 35%): - 21% est la plus petite valeur de prévalence dans la population compatible - 51% est la plus grande valeur de prévalence dans la population compatible IC 95% = 21 à 51% L’intervalle des valeurs du paramètre compatibles avec les données observées est plus 28 étroit qu’avec un échantillon de 20 personnes IC 95% et taille d’échantillon Paramètre: prévalence = 0.50 La largeur de l’IC95% tend à diminuer lorsque la taille d’échantillon augmente 29 Echantillons simulés de taille 100 Paramètre: Prévalence = 0.50 Si on obtient un intervalle de confiance à 95% de façon répétée à partir de la même population, 95% de ces ICs vont contenir le paramètre, et 5% ne le contiendront pas Quand on obtient un seul intervalle dans le cadre d’une étude, on ne sait pas dans quel cas de figure on se trouve. Si on n’a pas eu de chance, l’intervalle ne contient pas le paramètre. 30 Echantillons simulés de taille 200 Paramètre: Prévalence = 0.50 Si on obtient un intervalle de confiance à 95% de façon répétée à partir de la même population, 95% de ces ICs vont contenir le paramètre, et 5% ne le contiendront pas quelle que soit la taille d’échantillon Quand on obtient un seul intervalle dans le cadre d’une étude, on ne sait pas dans quel cas de figure on se trouve. Si on n’a pas eu de chance, l’intervalle ne contient pas le paramètre. 31 IC 95% d’une proportion Résumé Définition: Ensemble des valeurs du paramètre compatibles avec les données de l’échantillon Répond à la question: Qu’est-ce que les données de l’échantillon permettent de conclure sur le paramètre? L’IC contient toujours la valeur estimée Plus l’IC est étroit, plus l’estimation est précise La largeur de l’IC diminue lorsque la taille d’échantillon augmente 95% des ICs contiennent la valeur du paramètre (5% ne la contiennent pas) quelle que soit la taille d’échantillon 32 IC 95% d’une proportion Formule Formule permettant de calculer une approximation de l’IC95% paramètre à estimer (dans la population): p calculer la proportion dans l’échantillon: calculer l’IC95%: 𝑝(1 Ƹ − 𝑝)Ƹ 𝑝Ƹ ± 2 𝑛 Attention: la largeur de l’intervalle de confiance est maximale si 𝑝Ƹ =0.5, et diminue à mesure que 𝑝Ƹ se rapproche de 0 ou 1 33 Sur les 488 coureur.ses analysées, 62 cas d’hyponatrémie sont identifiés Dans l’échantillon, le risque d’hyponatrémie est 12.7% (62/488) Que peut-on dire du risque d’hyponatrémie dans la population des coureur.ses de marathon ? Calculer la proportion dans l’échantillon: 𝑝Ƹ =0.127 Ƹ 𝑝(1−𝑝)Ƹ 0.127(1−0.127) Calculer l’IC95%: 𝑝Ƹ ± 2 = 0.127 ± 2 𝑛 488 = 0.127 ± 2 × 0.015 = 0.097 à 0.157 Les données observées sont compatibles avec un risque d’hyponatrémie entre 9.7 et 15.7% dans la population des coureur.ses 34 Autres exemples de paramètres à estimer Paramètres moyenne écart type coefficient de corrélation coefficient de régression taux d’incidence odds ratio différence de risque risque relatif … 35 Estimation de la moyenne d’une population On veut connaître le taux moyen de cholestérol LDL dans une population de malades (paramètre) Population Taux de cholestérol LDL moyen Taux de cholestérol: variable quantitative continue Echantillon Recueil de données dans un échantillon aléatoire de N personnes Observation de N valeurs de taux de cholestérol Moyenne estimée xi est la valeur de la variable X observée chez Estimation du paramètre σ𝑛𝑖=1 𝑥𝑖 l’individu i «moyenne dans la population»: 𝑚= 𝑛 n est le nombre d’individus dans l’échantillon 36 Estimation et aléa de l’échantillonnage Moyenne Distribution des données dans la population Moyenne dans la population Distribution des observations Moyenne estimée dans un échantillon Distribution des observations dans Moyenne estimée un autre échantillon L’estimation du paramètre peut varier d’un échantillon à l’autre 37 Du paramètre « moyenne » à l’estimation Simulation Objectif de la simulation: observer la distribution de l’estimateur de la moyenne lorsqu’on échantillonne de manière aléatoire plusieurs fois la même population Etapes de la simulation: 1) distribution des données dans la population 2) échantillonnage: sélection aléatoire de N individus dans cette population 3) calcul de la moyenne estimée à partir des données de l’échantillon 4) grand nombre d’échantillons => distribution des moyennes estimées 38 http://onlinestatbook.com/stat_sim/sampling_dist/index.html Distribution des données dans la population moyenne = m (paramètre à estimer) écart type = s m Distribution des données dans l’échantillon moyenne = m (estimation du paramètre m) écart type = s Distribution des moyennes des échantillons 39 Du paramètre « moyenne » à l’estimation Enseignement de la simulation m Distribution des moyennes des échantillons (échantillonnage répété) : - forme en «cloche» - centrée sur la moyenne m dans la population Intervalle des estimations de moyenne compatibles avec m 2.5% des 95% des 2.5% des 40 échantillons échantillons échantillons IC 95% d’une moyenne estimée m = 123 Distribution dans la population Estimations compatibles avec m = 123 Taux de cholestérol (mg/dL) 50 250 Moyenne estimée dans l’échantillon de l’étude m=143 123 mg/dL est la plus petite valeur du paramètre m compatible avec une moyenne estimée de 143 mg/dL avec les données de l’échantillon => La borne inférieure de l’IC 95% de l’estimation est 123 mg/dL 41 IC 95% d’une moyenne estimée m = 163 Distribution dans la population Estimations compatibles avec m = 163 Taux de cholestérol (mg/dL) 50 250 Moyenne estimée dans l’échantillon de l’étude m=143 163 mg/dL est la plus grande valeur du paramètre m compatible avec une moyenne estimée de 143 mg/dL avec les données de l’échantillon => La borne supérieure de l’IC 95% de l’estimation est 163 mg/dL 42 Théorème de la limite centrale Soient – une variable dans la population de moyenne m et de variance s2 – un grand nombre d’échantillons de n observations indépendantes A mesure que la taille des échantillons n augmente (tend vers l’infini) – la distribution des moyennes des échantillons tend vers une distribution normale (i.e. gaussienne) – de moyenne m – de variance s2/n 43 IC 95% d’une moyenne estimée Distribution des données dans la population moyenne = m écart type = s m Echantillon de taille n Distribution des moyennes des échantillons (échantillonnage répété) : - distribution normale - moyenne m - variance = σ2/n - écart type = σ / √n Intervalle des estimations de moyenne compatibles avec m est: m +/- 2 σ / √n 2.5% des 95% des 2.5% des 44 échantillons échantillons échantillons IC 95% d’une moyenne estimée m = 123 Moyenne estimée dans l’échantillon de l’étude 143 mg/dL 2 σ / √n Taux de cholestérol 2 σ / √n (mg/dL) 50 250 m = 163 45 IC 95% d’une moyenne estimée Formule IC95%: l’ensemble des valeurs du paramètre qui sont compatibles avec l’estimation obtenue avec les données de mon échantillon Calculer la moyenne de l’échantillon: m Calculer l’écart type des données dans l’échantillon: s Calculer l’IC95%: 𝒔 𝒎±𝟐 𝒏 L’intervalle de confiance à 95% est centré sur l’estimation Sa largeur diminue lorsque : la taille d’échantillon n augmente et /ou l’écart type s diminue 46 Erreur type Erreur type d’une moyenne estimée = s/√n IC 95%: 𝒔 𝒎±𝟐 erreur type 𝒏 La largeur de IC95% diminue lorsque : la taille d’échantillon n augmente erreur type et /ou l’écart type s diminue diminue L’erreur type est une mesure de la précision de l’estimation 47 Exemple de l’enquête Taille chez les étudiantes (N=268): – Moyenne: 166.4 cm – Ecart type: 6.7 cm – Erreur type de la moyenne: 6.7/ √268 = 0.41 – IC95%: 165.6 à 167.2 cm 1.6 cm IC95%: 166.4 +/- 2*6.7/√268 La largeur de l’IC95% est plus petite chez les étudiantes que chez les étudiants car il y a plus d’étudiantes que d’étudiants Taille chez les étudiants (N=103): – Moyenne: 178.4 cm – Ecart type: 6.6 cm – Erreur type de la moyenne: 6.6/ √103 = 0.65 – IC95%: 177.1 à 179.7 cm 2.6 cm IC95%: 178.4 +/- 2*6.6/√103 48 IC 95% et taille d’échantillon Distribution des données dans la population moyenne = m (paramètre à estimer) écart type = s m Distribution des moyennes distribution normale des échantillons (n=5) moyenne m variance = σ2 / 5 écart type = σ / √5 Distribution des moyennes distribution normale des échantillons (n=25) moyenne m variance = σ2 / 25 écart type = σ / √25 quand n augmente, l’intervalle des estimations de moyenne compatibles avec m rétrécit 49 IC 95% et taille d’échantillon Population: Taille moyenne = 170 cm (paramètre) Ecart type = 6.5 cm La largeur de l’IC95% tend à diminuer lorsque la taille d’échantillon augmente 50 Echantillons simulés de 100 personnes Population: Taille moyenne = 170 cm (paramètre) Ecart type = 6.5 cm Si on obtient un intervalle de confiance à 95% de façon répétée à partir de la même population, 95% de ces ICs vont contenir le paramètre, et 5% ne le contiendront pas quelle que soit la taille d’échantillon Quand on obtient un seul intervalle dans le cadre d’une étude, on ne sait pas dans quel cas de figure on se trouve. Si on n’a pas eu de chance, l’intervalle ne contient pas le paramètre. 51 IC 95% et distribution dans la population Distribution Distribution des données dans la population non normale moyenne = m (paramètre à estimer) écart type = s m Distribution des moyennes des échantillons (n=10) Distribution normale Quelle que soit la distribution dans la population: - la distribution des moyennes des échantillons est normale (à condition que la taille d’échantillon n est «suffisamment» grande) - la formule de l’IC95% est applicable 52 IC 95% d’une moyenne Résumé Définition: Ensemble des valeurs du paramètre compatibles avec les données de l’échantillon Répond à la question: Qu’est-ce que les données de l’échantillon permettent de conclure sur le paramètre? L’IC est centrée sur la moyenne estimée Plus l’IC est étroit, plus l’estimation est précise La largeur de l’IC diminue lorsque : la taille d’échantillon augmente l’écart dans la population diminue 95% des ICs contiennent la valeur du paramètre (5% ne la contiennent pas) quelle que soit la taille d’échantillon 53 IC 95%: généralités 𝑠 Intervalle de confiance à 95% 𝑝Ƹ ± 2 𝑝(1 Ƹ − 𝑝) Ƹ 𝑚±2 𝑛 𝑛 dépend des données observées peut varier si on re-échantillonne la population contient toujours l’estimation (en général IC centré sur l’estimation) essentiel à l’interprétation des résultats d’une étude permet de mesurer la précision de l’estimation devrait toujours être rapporté avec l’estimation Quel que soit le paramètre estimé, interprétation identique: ensemble des valeurs du paramètre compatibles avec les données observées 54 Echantillon Une inférence statistique juste nécessite un bon échantillon Un bon échantillon doit être – représentatif de la population cible – de taille suffisante (pour être assez précis) Toujours identifier la population cible! Echantillon représentatif: – aléatoire (idéal – participants sélectionnés par une méthode de tirage au sort) – complet (maladies rares) 55 Estimation: deux types d’erreur Erreurs aléatoires: - cause potentielle: méthode de mesure imprécise - conséquence: IC95% tend à être plus large précision Écart type plus grand Erreurs systématiques: - causes potentielles: biais de sélection des participant.es méthode de mesure mal calibrée - conséquence: estimation biaisée Moyenne estimée validité Moyenne estimée biais Attention: IC95% ne dit rien d’une éventuelle erreur systématique (biais) 56 Biais de sélection Erreur systématique dans la sélection des participants qui conduit à une estimation incorrecte du phénomène mesuré (ex, proportion, moyenne, etc). Echantillon non-représentatif: – volontaires – patients choisis par le médecin – nombreux patients perdus de vue – … 57 58 N Engl J Med 2005;352:1550-6 59 tous les coureurs (n=20’000) présents à l’exposition 2 jours avant (n=?) approchés (n=?) recrutés (n=766) Processus de recrutement non-aléatoire 60 Analyse de 63.7% (488/766) des personnes sélectionnées N Engl J Med 2005;352:1550-6 61 N Engl J Med 2005;352:1550-6 62 tous les coureurs (n=20’000) présents à l’exposition 2 jours avant (n=?) approchés (n=?) recrutés (n=766) ont eu une prise de sang (n=488) Sélection non-aléatoire 63 Risque de biais? N Engl J Med 2005;352-1550-6 64 Problèmes potentiels Groupe sélectionné au départ est peut-être atypique – contactés lors d’une exposition – approchés « au petit bonheur » – refus de participer non décrits Un tiers des participants perdus de vue – ceux qui ont développé des symptômes d’hyponatrémie avaient-ils moins de chances de terminer la course? Suspicion de biais de sélection => risque de sur-estimation du risque d’hyponatrémie 65 Notions clefs Estimation d’un paramètre, inférence Echantillonnage, biais de sélection Erreurs aléatoires et systématiques L’intervalle de confiance à 95% d’une estimation décrit les valeurs du paramètre compatibles avec cette estimation: capte l’incertitude/imprécision de l’estimation mais pas un éventuel biais Savoir : – calculer l’IC95% d’une proportion et d’une moyenne estimée avec les formules de ce cours – interpréter un IC95% 66 Objectifs prochaine séance Comprendre les notions suivantes – Tests statistiques – Hypothèses nulles et alternes Chapitres Petrie/Sabin – Erreurs de type 1 et de type 2 17 – 18 – 36 – Valeur p – Puissance 67