FC6a Estimation des intervalles de confiance PDF

Estimation des intervalles de confiance Professeur : OLLIER FC N°6a Date : 22/09/2023 SOMMAIRE I. EXEMPLES INTRODUCTIFS ....................................................................................................................................................... 1 1. PRESSION ARTERIELLE SYSTOLIQUE DES FRANÇAIS, VARIABLE QUANTITATIVE ............................................................................................ 1 2. PROPORTION DE PERSONNES ATTEINTES D’UN CANCER ...................................................................................................................... 1 II. ESTIMATION PONCTUELLE ...................................................................................................................................................... 2 III. VARIABILITE D’ECHANTILLONNAGE ....................................................................................................................................... 4 1. DISTRIBUTION D’ECHANTILLONNAGE ............................................................................................................................................. 4 IV. INTERVALLE DE CONFIANCE .................................................................................................................................................. 8 En cas de questions sur ce cours, vous pouvez écrire à l’adresse suivante : [email protected] Les règles de courtoisies sont à respecter lors de l’envoi d’un mail. L’équipe des tuteurs se réserve le droit de répondre ou non à un mail. En cas de questions récurrentes, les tuteurs pourront faire un point lors des colles hebdomadaires. I. Exemples introductifs 1. Pression artérielle systolique des Français, variable quantitative EXEMPLE • Population : Français adulte • Taille : N = 45 000 000 Données • Variable : PAS en mmHg Objectif • Connaitre la moyenne (µ) et la variance (σ2) qui sont inconnues des Français. • N est trop grand : on ne peut pas mesurer la PAS de 45 000 000 de personnes. o Donc on construit un petit échantillon, ici de taille 6. • Dans cet échantillon : Problème o Moyenne = 156+133+179+101+110+128 6 = 134,5 • On extrapole alors cette valeur à la population entière : 𝜇 ≈ 134,5 • Donc µ est inconnue, mais on peut penser qu’elle est proche de 134.5. 2. Proportion de personnes atteintes d’un cancer EXEMPLE • Population : Français adulte • Taille : N = 45 000 000 Données • Variable : Résultats du test diagnostic • Modalité : Cancer/Pas de cancer Objectif • Connaitre la proportion de cancer (p) qui est inconnue • N est trop grand • On réalise le test diagnostic chez 10 000 personnes o Le test diagnostic détecte un cancer chez 145 personnes Problème 145 • On extrapole alors cette valeur à la population entière : 𝑝 ≈ 1000 = 0,0145 • P est inconnue, mais on peut penser qu’elle est proche de 0.0145 • Pour extrapoler, l’échantillon doit être représentatif de la population d’intérêt 1 II. Estimation ponctuelle PRINCIPE DE L’ESTIMATION EN STATISTIQUE • Procédure permettant de construire un échantillon (représentatif de la population cible). On sélectionne à partir d’un échantillon, un sous échantillon où l’on étudieraun paramètre. Échantillonnage Estimation ponctuelle • Attribution au paramètre de la population d’une valeur 𝜃̂ (l’estimation) calculée à partir des données de l’échantillon. • Fonction qui produit l’estimation à partir d’un échantillon. Estimateur ̂ = 𝛟(𝒙𝟏 , … , 𝒙𝒏 ) o 𝜽 1. Définition de la variable X étudiée o Exemple : La pression artérielle chez l’adulte 2. Définition du paramètre θ à estimer o Exemple : Moyenne (μ), écart-type (σ), probabilité (p) 3. Echantillonnage o Observation de la valeur de X dans un échantillon de n individus Procédure d’estimation ▪ {x1, … , xn} sont des réalisations de la variable aléatoire X 4. Estimation o Calcul d’une grandeur 𝜃̂ = (𝑥1 , … , 𝑥𝑛 ) à partir des observations {𝑥1 , … , 𝑥𝑛 } qui approchent au mieux la vraie valeur θ • Soit X une variable aléatoire quantitative avec E[X] = µ et Var[X] = σ² o On dispose d’un échantillon de n observations {𝑥1 , 𝑥2,…, 𝑥𝑛 } o L’estimation ponctuelle de µ est donnée par la moyenne empirique observée dans l’échantillon 2 Données Estimateur de l’espérance Exemple • Baisse de la tension artérielle systolique (mmHg) 2h après la prise dumédicament chez 10 sujets. {−10, −2, −9, −8, −18, −11, −20, −4, −16, −32} Question • Quelle est la baisse moyenne de la tension artérielle systolique 2haprès la prise du médicament ? • L’estimation ponctuelle de μ est donnée par : Réponse 1 • 𝑥̅ = 𝑛 Ʃ 𝑥𝑖 = −10−2−9−8−18−11−20−4−16−32 10 = −130 10 = −13 𝑚𝑚𝐻𝑔 ESTIMATEUR DE LA VARIANCE D’UNE VARIABLE ALEATOIRE QUANTITATIVE • Soit X une variable aléatoire quantitative avec E[X] = µ et Var[X] = σ². On dispose d’un échantillon de n observations {x1, x2, ..., xn}. On sait que 𝑉𝑎𝑟[𝑋] = 𝐸[(𝑋 − 𝐸[𝑋])² ] = 𝐸[𝑋²] − 𝐸[𝑋]² Principe • L’estimation ponctuelle de σ² est donnée par : 𝑆𝑋2 = Question 1 𝑛 1 Ʃ(𝑥𝑖 − 𝑥̅ )² = [( Ʃ𝑥𝑖2 ) − 𝑥̅ 2 ] 𝑛−1 𝑛−1 𝑛 • Quelle est la variance de la baisse de tension artérielle systolique 2h après la prise du médicament ? • L’estimation ponctuelle de σ² est donnée par : Réponse 𝑆𝑋2 = 𝑛 1 10 10 [239 − (−13)2 ] = [( Ʃ𝑥𝑖2 ) − 𝑥̅ 2 ] = × 70 = 77,78 𝑚𝑚𝐻𝑔² 𝑛−1 𝑛 9 9 3 III. Variabilité d’échantillonnage 1. Distribution d’échantillonnage • Si on prend un autre échantillon, on n’obtient pas les mêmes valeurs Un estimateur est une variable aléatoire qui dépend de l’échantillon • D’un échantillon à l’autre l’estimateur utilisé est le même mais on peut avoir des estimations ponctuelles différentes. Variabilités des estimations ponctuelles • L’estimation de 𝜃 est une variable aléatoire ϕ(X) dont la distribution de probabilité s’appelle la distribution d’échantillonnage du paramètre 𝜃.4 • La valeur calculée 𝜃̂ à partir des données d’un échantillon est une réalisation de cette variable aléatoire. • L’estimateur ϕ(X) admet donc : o Une espérance : E[ϕ(X)] o Une variance : Var[ϕ(X)] 4 ERREUR-TYPE D’UN ESTIMATEUR • Erreur-type = écart-type de la distribution d’échantillonnage • L’erreur type d’un estimateur φ(X) correspond à : Sd[φ(X)] = p Var[φ(X)] • Cette quantité nous permettra d’estimer un intervalle de confiance. • Soit (𝑋1, … , 𝑋𝑁) un échantillon de loi 𝑁(𝜇, 𝜎2) • L’écart-type d’estimation de 𝑋 correspond à : 𝑆² 𝑆 𝑆𝑑 [𝑋̅] = √𝑉𝑎𝑟 [𝑋̅] = √ = 𝑁 √𝑁 Définition • En effet, • La démonstration est précisée pour « comprendre » la formule, il ne vous sera pas demandé de la reproduire. Exemple : Erreur type de X • Histogramme des estimations 𝑋̅ obtenues à partir de 100 000 échantillons (µ = 0.8) pour N = 5, 10, 50 ou 500 sujets Impact de N sur la précision d’estimation POUR UN ESTIMATEUR 𝜱(𝑿) • ↗ De la précision d’estimation ✪✪✪ ↗N • ↘ De la largeur de distribution d’échantillonnage ✪✪✪ • ↘ 𝑆𝑑 [𝛷(𝑋)] ✪✪✪ Quelle est la bonne taille d’échantillon ? Plus N augmente, plus la variabilité diminue et donc la précision augmente. Ainsi l’erreur type diminue. 5 PROPRIÉTÉS D’UN ESTIMATEUR L’estimateur estime la vraie valeur théorique θ • A N fixé : Absence de biais o En moyenne sur tous les échantillons de taille N possibles, l’estimateur "vise bien" 𝐸[𝛷(𝑋𝑁)] = 𝜃 • Asymptotiquement : o Plus N est grand, et plus E[φ(XN)] est "proche" de θ, la valeur théorique 𝐸[𝛷(𝑋𝑁)] 𝑁 → +∞ → 𝜃 • Deux estimateurs possibles pour la variance : 1 𝑆 2 = 𝑁 Ʃ(𝑋𝑖 − 𝑋̅ )² Estimateur biaisé 1 𝑆 2 = 𝑁−1 Ʃ(𝑋𝑖 − 𝑋̅ )² Estimateur non-biaisé • On estime σ2 sur 400 échantillons de taille N=4: Exemple de l’estimation de la variance • Avec cet exemple, on voit que quand on utilise l’estimateur biaisé de la variance, la moyenne obtenue sur les 400 échantillons est différente de la moyenne théorique. • Cette différence s’appelle le biais et elle disparait lorsqu’on utilise l’estimateur non biaisé. • Les points jaunes correspondentaux moyennes de chaqueéchantillon. • On va donc préférer l’estimateur non biaisé de la variance. • En effet, on peut montrer qu’à N fixé : 𝐸 [𝑠 2 ] = 𝑁−1 𝑁 𝜎² => s² est biaisé • Mais s² n’est pas biaisé asymptomatiquement : 𝐸 [𝑠 2 ] = 𝑁−1 𝑁 𝜎²𝑁 -> +∞ -> 𝜎² 1 Calcul de la variance : avec 𝑁−1 6 • Plus N est grand, plus φ(XN) est "probablement proche" de θ Convergence • Plus N est grand, plus la variabilité d’échantillonnage diminue • Un estimateur φ(X) d’un paramètre θ est dit convergent si et seulement si : 𝐸[𝛷(𝑋𝑁)] 𝑁 → +∞ Convergence de l’estimateur sans biais de la variance → 𝜃 et 𝑉𝑎𝑟[𝛷(𝑋𝑁)] 𝑁 → +∞ → 𝜃 • On voit que plus la taille de l’échantillon (N) est petite, plus le résultat diffère de manière importante par rapport à la valeur théorique. • A l’inverse, plus on augmente N, plus le résultat obtenu va se resserrer autour de lavaleur théorique. • C’est ce qu’on appelle phénomène de convergence. 𝐸[𝑆2] 𝑁 → +∞ → 𝜃 et 𝑉𝑎𝑟[𝑆2] 𝑁 → +∞ → 0 le 7 IV. Intervalle de confiance ̂ L’ESTIMATION 𝜽 L’estimation ̂ est-elle de 𝜽 proche de la valeur théorique • On a vu dans le cours précédent comment définir une estimation d’une valeur. On se demande maintenant si cette estimation est proche de la valeur théorique qu’on recherche. • Solution : o Définir un intervalle autour de θ̂ telle que la valeur théorique θ est une probabilité donnée de s’y trouver. Un intervalle pour laquelle on a une grande probabilité d’obtenir θ. • Les intervalles de confiance servent à quantifier la précision d’estimation. Intervalle de confiance à 95% (le plus communéme ntretrouvé) • L’intervalle de confiance à 95% autour de θ̂ correspond à l’intervalle pour lequel la probabilité de contenir la valeur théorique θ est de 95%. • Si on répète l’estimation sur 100 échantillons différents, 95% des intervalles de confiance contiendront la valeur théorique θ. • On voit sur le graphique les 5 intervalles de confiance en rouge ne contenant pas la valeur θ. 8 INTERPRÉTATION • Définition o L’intervalle de confiance de niveau (1 − α) autour de θ̂ correspond à l’intervalle Intervalle de confiance de niveau (1 − α) En termes plus mathématiques Un intervalle de confiance peut être calculé pour n’importe quel paramètre pour lequel la probabilité de contenir lavaleur théorique θ est de (1 − α). o Plus concrètement, lorsque l’on prend un intervalle de confiance à 95%, α vaut 5 % et si l’on en prend un à 80%, α vaut 20%. Intervalle large → Précision faible, forte incertitude ̂ − 𝛥; θ̂ + 𝛥] 𝐼𝐶1−𝛼(𝜃) = [θ ̂ − 𝛥 < 𝜃 < 𝜃̂+ 𝛥) = 1 − 𝛼 𝑃(θ • On sait calculer Δ • Une moyenne, une proportion • Une variance • Un taux de survie • Les coefficients régression linéaire Intervalle étroit → Précision importante, peu d’incertitude d’une À chaque fois, l’intervalle de confiance sera de la forme : ✪✪✪ 𝐼𝐶1−𝛼 (𝜃) = [𝜃̂− 𝑧𝛼 × 𝑆𝑑(θ̂ ); θ̂ + 𝑧𝛼 × 𝑆𝑑(θ̂ )] Avec : • θ̂ : L’estimation ponctuelle du paramètre (ex : 𝑋) • 𝑆𝑑(θ̂) : L’erreur-type de l’estimation (ex : 𝑆², N) • 𝑧𝛼 : Une constante dépendant de la loi de l’estimateur 9 • Soit (X1, ..., XN) un échantillon de loi N (µ, σ2) avec : 1 1 𝑁 2 ̅ 𝑋̅ = 𝑁 Ʃ𝑁 𝑖=1 𝑋𝑖 et 𝑆 = 𝑁−1 Ʃ𝑖=1 (𝑋𝑖 − 𝑋 )² 𝑆2 𝑆2 𝐼𝐶1−𝛼 (𝜇) = [𝑋̅ − 𝑡𝛼𝑁−1 √ ; 𝑋̅ + 𝑡𝛼𝑁−1 √ ] 𝑁 𝑁 • Avec 𝑡𝛼𝑁−1 se calculant à l’aide d’une loi 𝑇(𝑁 − 1) • (Ici 𝑧𝛼 a été remplacé par 𝑡𝛼𝑁−1 car cette constante est régie par une loi de Student à N - 1 ddl.) Démonstration • En effet, on peut montrer que : √𝑁 𝑋̅−𝜇 √𝑆² ~ 𝑇(𝑁 − 1) • On peut alors calculer 𝑡𝛼𝑁−1 tel que : 𝑃 (−𝑡𝛼𝑁−1 < √𝑁 𝑋̅−𝜇 √𝑆 2 < 𝑡𝛼𝑁−1 ) = 1 − 𝛼 • En isolant μ au centre de l’inéquation, on en déduit notre intervalle de confiance. • Fin de la démonstration : 𝑆2 𝑆2 𝑋̅ − 𝑡𝛼𝑁−1 √ < 𝜇 < 𝑋̅ + 𝑡𝛼𝑁−1 √ = 1 − 𝛼 𝑁 𝑁 • Cette démonstration n’est pas à savoir par cœur et ne sera pas demandée aux partiels, il faut la comprendre pour comprendre le principe du cours et d’autres notions qui arriveront plus tard dans le semestre. Calcul de 𝒕𝑵−𝟏 𝜶 • La courbe représente la densité de probabilité d’une loi de Student 𝛼 • −𝑡𝛼𝑁−1 est le quantile de niveau 2 de la loi T(N-1) 𝛼 • 𝑡𝛼𝑁−1 est le quantile de niveau 1- 2 de la loi T(N-1) • 𝑋~𝑇(𝑑𝑑𝑙 ) • 𝑃(−𝑡𝛼𝑁−1 < 𝑋 < 𝑡𝛼𝑁−1 ) = 1 − 𝛼 • 𝑃(|𝑋| > 𝑡𝛼𝑁−1 ) = 𝛼 10 Donc pour N = 10 et α = 5% : Pour N = 10 et α = 20% : Ne pas oublier N-1 ddl dans la table, sinon la lecture est fausse 11 ESTIMATEUR DE L’ESPÉRANCE • Données : Exemple o Baisse de la tension artérielle systolique (mmHg) 2h après la prise du médicament chez 10 sujets {−10, −2, −9, −8, −18, −11, −20, −4,−16,−32} • Rappel : o 𝑋̅(𝑏𝑎𝑖𝑠𝑠𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒) = −13 𝑚𝑚𝐻𝑔 Question • Calculez les intervalles de confiance à 95% et 80% de la baisse moyenne de latension artérielle systolique o 𝑆 2 (𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑒 𝑙𝑎 𝑏𝑎𝑖𝑠𝑠𝑒) = 77,78 𝑚𝑚𝐻𝑔2 9 o 𝑡0,05 = 2,262 et 9 o 𝑡0,2 = 1,383 77,78 77,78 9 √ 9 √ 𝐼𝐶0,95 (𝜇) = [𝑋̅ − 𝑡0,05 ; 𝑋̅ + 𝑡0,05 ] 10 10 On a donc pour 95% 77,78 77,78 = [−13 − 2,262√ ; −13 + 2,262√ ] 10 10 = [−19,31; −6,69] 77,78 77,78 9 √ 9 √ 𝐼𝐶0,8 (𝜇) = [𝑋̅ − 𝑡0,2 ; 𝑋̅ + 𝑡0,02 ] 10 10 Pour 80% 77,78 77,78 = [−13 − 1,383√ ; −13 + 1,383√ ] 10 10 = [−16,86; −9,14] • On voit que l’intervalle à 80% est plus petit car on va diminuer la probabilité qu’il contienne la valeur théorique, on s’autorise une plus grande proportion d’erreur. 12

FC6a Estimation des intervalles de confiance PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue