Cours Chapitre 2 Tests Statistiques Année 3 Semestre 6 PDF
Document Details
Uploaded by VisionaryVerisimilitude
École Supérieure d'Ingénieurs Léonard de Vinci
2024
Laetitia DELLA MAESTRA
Tags
Related
- Statistiques L3 Sem1-Chapitre 3 Anova à Mesures Répétées-Partie 2 PDF
- HPS3U34 Méthodes et Statistiques pour Psychologues PDF
- Cours: Rappels sur la théorie des tests d'hypothèses PDF
- Statistiques pour Médecins - Tests Statistiques (PDF)
- Statistiques pour Médecins - 5 Tests Statistiques PDF
- Cours d'échantillonnage et d'estimation Sara GOTTI PDF
Summary
Ce document est un cours sur les tests statistiques, destiné aux étudiants de troisième année de mathématiques, semestre 6. Le cours présente différents types de tests, leur formalisation, et leur application à des exemples, comme un sondage d'opinion pour un vidéaste. L'utilisation de Python pour l'analyse de données est également mentionnée.
Full Transcript
5 mars 2024 Statistiques Année 3 Semestre 6 Chapitre 2 : Tests Statistiques Laetitia DELLA MAESTRA Enseignant-chercheur en Mathématiques laetitia.della− [email protected] - Bureau L405 Notion de modèle statistique : Avertissement Citations du statisticien George Box (1919-2013) : Il a été dit que «...
5 mars 2024 Statistiques Année 3 Semestre 6 Chapitre 2 : Tests Statistiques Laetitia DELLA MAESTRA Enseignant-chercheur en Mathématiques laetitia.della− [email protected] - Bureau L405 Notion de modèle statistique : Avertissement Citations du statisticien George Box (1919-2013) : Il a été dit que « tous les modèles sont faux mais certains modèles sont utiles ». En d’autres termes, tout modèle est au mieux une fiction utile - il n’y a jamais eu, ou il n’y aura jamais, une distribution exactement normale ou une relation linéaire exacte. Néanmoins, d’énormes progrès ont été réalisés en divertissant de telles fictions et en les utilisant comme approximations. (Statistical Control : By Monitoring and Feedback Adjustment, avec A. Luceno, 1997, p.6) Tous les modèles sont des approximations. Les hypothèses, qu’elles soient implicites ou clairement énoncées, ne sont jamais tout à fait vraies. Tous les modèles sont faux, mais certains modèles sont utiles. Donc, la question que vous devez vous poser n’est pas « Le modèle est-il vrai ? » (ce n’est jamais le cas) mais « Le modèle est-il assez bon pour cette application particulière ? » (Statistical Control By Monitoring and Adjustment, avec A. L. et M. del Carmen Paniagua-Quinones, 2009, p.61) Chapitre 2 : Tests statistiques Objectif de ce chapitre : ↝ Etude de trois grands types de tests : Tests de conformité : comparer un (des) paramètre(s) de la loi de l’observation à une (des) valeur(s) de référence ; Tests d’adéquation (ou d’ajustement) : est-ce que la loi de notre observation appartient à telle famille de lois ? tests d’homogénéité : est-ce que deux échantillons sont issus de la même loi ? Parmi ces trois familles de tests, nous n’étudierons que les exemples les plus simples de tests, il en existe beaucoup d’autres. Il existe un autre grand type de test, les tests d’indépendance, que nous n’étudierons pas dans ce chapitre. 3/135 Que faire face à un exercice-type ? Lire attentivement la situation présentée ; Justifier le choix d’un type de tests plutôt qu’un autre dans ce cours bien sûr) pour répondre à la problématique ; (parmi ceux étudiés Formaliser votre test statistique ↝ détails diapo suivante ; Déterminer si vous conservez ou rejetez l’hypothèse nulle à un niveau α à partir des données fournies par l’énoncé ; Déterminer la p-valeur et évaluer l’adéquation de l’hypothèse nulle avec les données fournies par l’énoncé ; Conclure par rapport à la problématique initiale de l’énoncé. Connaître les commandes Python à utiliser pour les différents tests, et savoir interpréter les résultats donnés, en particulier la p-valeur. 4/135 Savoir formaliser votre test statistique (vous serez évalués sur la qualité de votre rédaction) ; Définir clairement l’hypothèse nulle H0 et l’hypothèse alternative H1 de votre test ; Définir précisément la statistique de test que vous allez utiliser : pour chaque test présenté dans ce Chapitre 1, vous devez connaître par coeur la définition de la statistique à utiliser, ainsi que sa loi (resp. sa loi limite) sous H0 pour un test exact (resp. un test asymptotique) ; Définir la forme de la région de rejet grâce à H1 ; Déterminer précisément la région de rejet à l’aide de quantiles (savoir les obtenir à l’aide de Python, savoir lire une table de quantiles) ; Définir précisément votre test statistique (avec une fonction indicatrice), et préciser si c’est un test exact/asymptotique, de niveau α/de taille α. 5/135 Ce dont nous ne occuperons pas ici de comment sont récupérées les données, comment traiter le cas des données manquantes, des outliers,... ; des justifications mathématiques théoriques derrière certains tests statistiques (cela sera indiqué clairement au niveau des tests en question dans ces diapos) de ce Chapitre 2, autres que les outils qui vous sont présentés dans ce CMO et vous seront présentés dans les TD Ces justifications rigoureuses existent bien sûr, la plupart sont dans les références données diapo suivante (et si vous souhaitez en savoir plus je serai ravie de répondre à vos questions en dehors heures de classe), mais ce n’est pas l’objet de ce Chapitre 2 d’en parler, ni en CMO, ni en TD. 6/135 Bibliographie Références (cf. également CMO1) : Pour une vision globale rigoureuse : Statistique mathématique en action, V. Rivoirard, G. Stoltz, ed. Vuibert (et aussi Probabilités et statistiques, M.-L. Chabanol, J.-J. Ruch, ed. Ellipses) ; Pour un formulaire (exhaustif pour ce module) de tests : Probabilités, Analyse de données, et Statistiques, G. Saporta, ed. Technip ; Pour les justifications mathématiques rigoureuses : Cours de Statistique non-paramétrique de l’Université Paris Dauphine-PSL (V. Rivoirard, L. Comminges, G. Turinici) ; Pour les nombreux exemples, et exercices proposés, ainsi qu’une très claire présentation des p-valeurs : An Introduction to Mathematical Statistics, F. Bijma, M. Jonker, A. van der Vaart, ed. Amsterdam University Press. 7/135 Exemple d’introduction & Vocabulaire Nous introduisons la méthode générale pour construire des tests statistiques, et le vocabulaire associé, à l’aide de l’exemple suivant. Exemple de test statistique : un sondage d’opinion Un vidéaste, habitué à proposer des contenus de type A, souhaiterait se diversifier et proposer sur sa chaîne un nouveau type de contenus, dits de type B. La production de ces contenus étant beaucoup plus coûteuse que celle des contenus de type A, il évalue qu’en produire ne serait intéressant pour lui que si la majorité des gens qui regardent ses contenus actuels étaient susceptibles de regarder ses nouveaux contenus. Notre vidéaste voudrait donc savoir si oui ou non il est intéressant de produire des contenus de type B. 8/135 Notre vidéaste souhaite donc se positionner par rapport à "l’hypothèse de base" H0 ∶ "il n’est pas intéressant de produire des contenus de type B". Point Vocabulaire On appelle H0 l’hypothèse nulle (sans jugement de valeur !) Un test statistique permet de dire "peut-être" à H0 (on dit qu’il conserve H0 ) ou "non" à H0 (on dit qu’il rejette H0 ) mais jamais "oui" à H0. Pourquoi notre vidéaste ne prendrait-il pas plutôt comme hypothèse nulle H0 ∶ "il est intéressant de produire des contenus de type B" ? 9/135 Point méthode Lorsque l’on construit un test statistique, on prend pour H0 : une hypothèse communément établie ou un parti pris subjectif, une hypothèse de prudence (motivée par un critère de coût, de sécurité, de crédibilité,... ), la seule hypothèse facile à formuler (qui permet de déterminer la loi de probabilité sous-jacente de la statistique utilisée pour construire le test), l’hypothèse que vous donne l’énoncé de l’exercice (ne changez pas les énoncés des exercices, répondez à la question posée...). Notre vidéaste choisit donc pour H0 une hypothèse de prudence : il serait plus coûteux pour lui de se tromper en produisant des contenus de type B qui ne plairaient pas que de ne pas en produire alors qu’ils plairaient. 10/135 Notre vidéaste souhaite donc départager les hypothèses : H0 ∶ "il n’est pas intéressant de produire des contenus de type B", et H1 ∶ "il est intéressant de produire des contenus de type B", et il aimerait donc construire une étude statistique dont le résultat vienne conforter son souhait de rejeter H0 et accepter H1 sans prendre trop de risques... Point vocabulaire/méthode On appelle H1 l’hypothèse alternative. H1 est souvent la négation de H0 , mais pas nécessairement : un a priori peut conduire à un ensemble d’alternatives plus réduit. Notre vidéaste prend ici simplement pour hypothèse alternative H1 la négation de l’hypothèse nulle H0. 11/135 Point méthode En pratique, deux groupes avec des visées et intérêts différents auront des couples (H0 , H1 ) "inversés". Exemple industriel vs association de protection de la nature : la limite légale d’un polluant contenu dans les déchets d’une usine est de 6mg/kg. On effectue un dosage du niveau de ce polluant dans des prélèvements effectués au hasard, et l’on suppose que, de manière générale, le niveau de ce polluant dans les déchets suit une loi d’espérance µ inconnue. Pour le directeur de l’usine, l’erreur la plus grave serait de conclure que le niveau de polluant est trop élevé alors qu’il ne l’est pas. Il choisit donc de tester H0 ∶ µ ≤ 6 contre H1 ∶ µ > 6. Prenons maintenant le point de vue de l’association de protection de la nature : si la limite est supérieure à 8mg/kg, il y a danger. Contrairement au directeur d’usine, cette association considère que l’erreur la plus grave serait de conclure que le niveau de polluant n’est pas trop élevé alors qu’en réalité il l’est. Elle effectue donc le test suivant H0 ∶ µ ≥ 8 12/135 contre H1 ∶ µ < 8. Notre vidéaste désigne par θ ∈ [0, 1] la proportion, inconnue de son point de vue, de personnes regardant ses contenus A qui seraient susceptibles d’être intéressés par des contenus B. Etant donné que d’après ses calculs, notre vidéaste a évalué que produire des contenus B ne serait intéressant pour lui que si plus de la moitié des gens qui regardent ses contenus A étaient susceptibles de regarder ses contenus B, il souhaite donc comparer θ avec la valeur de référence θref ∶= 0.5 et départager les hypothèses H0 ∶ θ ≤ θref et H1 ∶ θ > θref. Remarque : en français, sans précision supplémentaire du type "strictement", "plus" peut aussi bien vouloir dire > que ≥, vous pourriez donc aussi bien prendre H0 ∶ θ < θref et H1 ∶ θ ≥ θref. Attention ! ces deux tests ne donneront pas toujours le même résultat à la fin. 13/135 Point vocabulaire Un test statistique "paramétrique" s’écrit H0 ∶ θ ∈ Θ0 contre H1 ∶ θ ∈ Θ1 où Θ0 , Θ1 sous-ensembles d’un espace de paramètres Θ (ce que l’on note Θ0 , Θ1 ⊂ Θ) et disjoints (ce que l’on note Θ0 ∩ Θ1 = ∅). Ici Θ ∶= [0, 1], Θ0 ∶= [0, 0.5] et Θ1 ∶=]0.5, 1]. Ici, on a également Θ0 ∪ Θ1 = Θ (cela tient au fait que H1 est simplement la négation de H0 ). Point méthode Attention ! Avoir Θ0 ∪ Θ1 = Θ n’est pas obligatoire, par contre avoir Θ0 ∩ Θ1 = ∅ l’est ! 14/135 Comment peut procéder notre vidéaste pour tester H0 contre H1 ? Notre vidéaste veut s’appuyer sur des données pour prendre une décision. Mais comment peut-il procéder pour obtenir des données ? ➀ : notre vidéaste choisit au hasard une personne parmi toutes celles qui regardent ses vidéos, et lui demande si oui ou non elle serait intéressée par des contenus de type B. Notre vidéaste supposera dans toute la suite que la personne interrogée est représentative de l’ensemble des personnes qui regardent ses vidéos, et que la personne interrogée répond bien par oui ou non à la question posée. Remarques : Notre vidéaste aurait sûrement des difficultés à obtenir la liste de toutes les personnes qui regardent ses vidéos... ↝ il pourrait se restreindre à la liste de ses abonnés, mais sont-ils représentatifs de l’ensemble des personnes qui regardent ses vidéos ? Que faire si la personne interrogée ne répond pas/ne répond pas par oui ou par non ? ↝ notre vidéaste peut réinterroger la personne tirée au sort jusqu’à ce qu’elle réponde/qu’elle réponde par oui ou par non à la question posée (mais cela peut lui coûter du temps et de l’argent...), et si cela ne fonctionne toujours pas, tirer au sort une autre personne à interroger Comment notre vidéaste peut-il modéliser mathématiquement sa situation ? 15/135 Notre vidéaste supposera dans toute la suite que la personne interrogée répond bien par oui ou non à la question posée. Notre vidéaste appelle x la réponse donnée par la personne interrogée : x = 1 correspondra à la réponse "oui" x = 0 correspondra à la réponse "non" Pourquoi ne pas juste garder x = "oui" et x = "non" ? Point méthode Ne pas hésiter à encoder numériquement les informations données par l’énoncé du problème. Cela permet : de traiter de manière générique le problème, et de pouvoir appliquer la solution à d’autres situations (remplacer "vidéaste" par "restaurateur", "oui" et "non" par "pizza" et "pâtes"...) de se ramener à des lois de probabilités usuelles. 16/135 Notre vidéaste supposera dans toute la suite que la personne interrogée est représentative de toutes les personnes qui regardent ses vidéos. Il y a donc équirépartition, et étant donné que la proportion de personnes regardant ses contenus actuels et qui seraient intéressées par des contenus de type B est de θ, et que la personne interrogée est choisie au hasard, elle a une probabilité θ d’être intéressée par des contenus de type B : notre vidéaste peut donc considérer que x est la réalisation d’une variable aléatoire réelle X de loi B(θ). 17/135 Point vocabulaire X est appelée observation. ↝ en tant que v.a.r., elle est définie sur un certain espace de probabilité (Ω, A, P) pour tout ω ∈ Ω, X (ω) est appelée réalisation de X. La v.a.r. X est à valeurs dans {0, 1} muni de la tribu P({0, 1}), et est de loi B(θ). Point vocabulaire Le triplet ({0, 1} , P({0, 1}), (B(θ))θ∈[0,1] ) est appelé modèle statistique. Rappelons la définition générale suivante (cf. Chapitre 1) : 18/135 Point vocabulaire Un modèle statistique est un triplet (E , E, F) où (E , E) est un espace probabilisable (E tribu sur l’ensemble E ) F est une famille de mesures de probabilités sur (E , E). Un modèle statistique (E , E, F) est dit paramétrique s’il existe : un ensemble connu Θ inclus dans Rp , pour un certain p ∈ N⋆ , une famille {Pθ }θ∈Θ de mesures de probabilités sur (E , E) paramétrée par Θ, tel que F = {Pθ }θ∈Θ. Un modèle statistique (E , E, F) qui ne peut pas se mettre sous forme paramétrique est dit (par défaut) non-paramétrique. Remarque : étant donné qu’une loi de probabilité est caractérisée par sa fonction de répartition, on peut toujours "paramétrer" un ensemble de lois de probabilités par l’ensemble des fonctions de répartition associées, mais cet ensemble ne sera pas de dimension finie (au sens où il ne sera pas inclus dans un ensemble Rp ). 19/135 Un modèle statistique (E , E, F) sera toujours supposé identifiable càd que F ne contient pas deux probabilités identiques. Dans le cas d’un modèle paramétrique (E , E, {Pθ }θ∈Θ ) cela revient à supposer que pour θ ≠ θ′ dans Θ, Pθ ≠ Pθ′ , et nous noterons dans ce cas le modèle (E , E, (Pθ )θ∈Θ ). Dans l’exemple de notre vidéaste, nous avons (E , E) ∶= ({0, 1} , P({0, 1})), F ∶= (Pθ )θ∈Θ où Θ ∶= [0, 1] ⊂ R (p = 1), Pθ ∶= B(θ). et notre modèle statistique est paramétrique. 20/135 Exemple de modèle statistique paramétrique "à 2 paramètres" (E , E) ∶= (R, B(R)), (E est la tribu des boréliens de R) F ∶= (P(µ,σ2 ) )(µ,σ2 )∈Θ où Θ ∶= R × R⋆+ ⊂ R2 (p = 2), P(µ,σ2 ) ∶= N (µ, σ 2 ). Modèle statistique = (R, B(R), (P(µ,σ2 ) )(µ,σ2 )∈R×R⋆+ ) Exemple de modèle statistique non-paramétrique (E , E) ∶= (R, B(R)), F ∶= ensemble des mesures de probabilités sur (R, B(R)) admettant un moment d’ordre 2 fini. Modèle statistique = (R, B(R), F) 21/135 Point vocabulaire Une observation pour un modèle statistique (E , E, F) est une variable aléatoire X , à valeurs dans E , et dont la loi appartient à la famille F. Autrement dit, il existe un espace de probabilité sous-jacent (Ω, A, P) sur lequel est défini X , et tel que la loi de probabilité P ∶= LP (X ) de X sous P, soit dans F. Par abus de notation, nous écrirons parfois dans ce cas PP à la place de P. Cas particulier d’un modèle paramétrique où F = (Pθ )θ∈Θ : dans cette situation, cela signifie qu’il existe θ ∈ Θ tel que LP (X ) = Pθ , et, par abus de notation, nous écrirons alors parfois Pθ à la place de P. 22/135 Point vocabulaire Pour un modèle statistique (E , E, F), muni d’une observation X définie sur un espace de probabilité (Ω, A, P), et dont on note la loi P ∶= LP (X ), la forme générale d’un test statistique est la suivante : H0 ∶ P ∈ F0 contre H1 ∶ P ∈ F1 où F0 , F1 ⊂ F et F0 ∩ F1 = ∅. Cas particulier d’un modèle paramétrique où F = (Pθ )θ∈Θ : on retrouve la forme de test usuelle et précédemment introduite H0 ∶ θ ∈ Θ0 contre H1 ∶ θ ∈ Θ1 en notant F0 ∶= (Pθ )θ∈Θ0 , F1 ∶= (Pθ )θ∈Θ1 , avec Θ0 , Θ1 ⊂ Θ et Θ0 ∩ Θ1 = ∅. 23/135 Retour à notre exemple du vidéaste Pour notre vidéaste, E = {0, 1}, E = P({0, 1}), F = (Pθ = B(θ))θ∈Θ , Θ = [0, 1] ; Observation X de loi Pθ ∈ F ; Test de H0 ∶ θ ∈ Θ0 = [0, θref ] contre H1 ∶ θ ∈ Θ1 =]θref ; 1] càd de H0 ∶ Pθ ∈ F0 ∶= (Pθ )θ∈Θ0 contre H1 ∶ Pθ ∈ F1 ∶= (Pθ )θ∈Θ1 Notre vidéaste veut définir une règle de conduite générale à adopter face à la donnée x qu’il va recueillir, ou, de manière équivalente, face à l’observation X dont cette donnée est issue. Il décide de choisir la règle de conduite la plus simple : conserver H0 si X = 0 ; rejeter H0 (et donc accepter H1 ) si X = 1. On appellera une telle règle de décision : test statistique de l’hypothèse H0 contre l’hypothèse H1. 24/135 Point vocabulaire De manière générale, pour un modèle statistique quelconque (E , E, F) muni d’une observation X , on appelle test statistique de l’hypothèse H0 contre l’hypothèse H1 toute variable aléatoire réelle φ(X ), à valeurs dans {0, 1} où φ fonction mesurable de E dans {0, 1} Lorsque φ(X ) = 0, on conserve H0 ; Lorsque φ(X ) = 1, on rejette H0 et on accepte H1. Ici φ(X ) = X (Attention ! C’est un cas particulier, cela fonctionne ici parce que X est lui-même à valeurs dans {0, 1}.) Comment procéder de manière générale pour construire un test statistique φ(X ) pour un modèle statistique (E , E, F) et une observation X (définie sur un espace de probabilité (Ω, A, P)) ? 25/135 Point méthode & vocabulaire Un tel test statistique peut toujours s’écrire φ(X ) = 1{T (X )∈R} : T étant une fonction mesurable de (E , E) dans (R, B(R)) (en fait, en toute généralité, de (E , E) dans (E ′ , E ′ ) pour un certain ensemble E ′ muni d’une tribu E ′ ) ↝ T (X ) est appelée la statistique du test ; R ∈ B(R) étant un ensemble appelé la région de rejet du test et qui dépend le plus souvent de la forme des hypothèses H0 et H1 (en fait, en toute généralité, R ∈ E ′ ) ; 1 si T(X(ω)) ∈ R Rappel : φ(X ) ∶ ω ∈ Ω ↦ { , car 1 est une fonction 0 si T(X(ω)) ∉ R indicatrice et {T (X ) ∈ R} = {ω ∈ Ω; T (X (ω)) ∈ R}. Pour une réalisation x de l’observation X , càd x = X (ω) pour un certain 1 si T(x) ∈ R ω ∈ Ω, on a donc φ(x ) = {. 0 si T(x) ∉ R 26/135 Ici φ(X ) = 1{X ∈{1}} , donc on peut prendre T (X ) = X , E ′ = E = {0, 1}, E ′ = E = P({0, 1}), R = {1}. Ça y est ! Notre vidéaste dispose à présent de la donnée x = 1, càd que l’abonné qu’il a tiré au hasard et à qui il a posé la question "Seriez-vous intéressé par des contenus de type B" a répondu "oui". Notre vidéaste se prépare donc à rejeter H0 et accepter H1. Il se trouve alors dans une des deux situations suivantes : Situation favorable : H0 est fausse ↝ notre vidéaste ne va donc pas commettre d’erreur ; Situation défavorable : H0 est vraie ↝ notre vidéaste va donc commettre une erreur... Explicitons ces deux situations : 27/135 Situation favorable : H0 est fausse càd il y a bien strictement plus de 50% des gens qui regardent ses contenus actuels qui sont intéressés par des contenus de type B ; et la personne tirée au sort fait donc partie de cette majorité : elle est représentative de l’opinion dominante au sein de la population des gens qui regardent les contenus de notre vidéaste ("notre vidéaste n’a pas juste eu de la chance de tirer quelqu’un qui est de l’avis qui va dans son sens"). ↝ Notre vidéaste ne va donc pas commettre d’erreur en rejetant H0 /acceptant H1. Situation défavorable : H0 est vraie càd il y a moins de 50% des gens qui regardent ses contenus actuels qui sont intéressés par des contenus de type B ; et la personne tirée au sort fait donc partie de la minorité : elle n’est pas représentative de l’opinion dominante au sein de la population des gens qui regardent les contenus de notre vidéaste. ↝ Notre vidéaste va donc commettre une erreur en rejetant H0 /acceptant H1. 28/135 On a le vocabulaire général suivant : Point vocabulaire sur les tests statistiques Le fait de rejeter à tort H0 est appelé erreur de première espèce (ou faux négatif). Le fait de conserver à tort H0 est appelé erreur de seconde espèce (ou faux positif). Notre vidéaste est donc peut-être sur le point de commettre une erreur de première espèce... Peut-il quantifier le risque qu’il prend avec sa procédure ? 29/135 Point vocabulaire sur les tests statistiques Pour un modèle statistique général (E , E, F) muni d’une observation X ∼ P ∈ F, le risque de première espèce du test statistique φ(X ) de H0 ∶ P ∈ F0 contre H1 ∶ P ∈ F1 est la fonction : α ∶ P ∈ F0 ↦ PP (φ(X ) = 1) ∈ [0, 1]. Il mesure la probabilité que le test rejette à tort H0. Cas paramétrique : (E , E, (Pθ )θ∈Θ ), muni d’une observation X ∼ Pθ (θ ∈ Θ), le risque de première espèce du test statistique φ(X ) de H0 ∶ θ ∈ Θ0 contre H1 ∶ θ ∈ Θ1 est : α ∶ θ ∈ Θ0 ↦ Pθ (φ(X ) = 1) ∈ [0, 1]. Ici, le risque de première espèce du test φ(X ) = 1{X ∈{1}} est α ∶ θ ∈ Θ0 = [0, θref ] ↦ Pθ (φ(X ) = 1) = Pθ (X = 1) = θ (puisque, sous Pθ , X suit la loi Pθ = Ber (θ)). 30/135 On définit la taille du test φ(X ) par α⋆ ∶= sup α(P) = sup PP (φ(X ) = 1). P∈F0 P∈F0 Cas paramétrique : α⋆ = sup α(θ) = sup Pθ (φ(X ) = 1). θ∈Θ0 θ∈Θ0 On dit que le test φ(X ) est de niveau α, pour un certain réel α ∈ [0, 1], si α⋆ ≤ α. Le test φ(X ) est de taille α⋆ = sup α(θ) = sup θ = θref = 0.5. θ∈Θ0 θ∈Θ0 Autrement dit, notre vidéaste a 1 chance sur 2 de se tromper en rejetant H0 (ça paraît logique...). Et le test φ(X ) est de niveau α pour tout α ∈ [θref , 1] = [0.5, 1]. Comment notre vidéaste peut-il réduire la taille de son test ? En augmentant le nombre de données recueillies ? 31/135 Notre vidéaste modifie sa stratégie ➀ de la manière suivante : ➁ : notre vidéaste choisit au hasard cent personnes parmi les 93414 personnes qui ont regardé sa dernière vidéo, et leur demande si oui ou non elles seraient intéressées par des contenus de type B. Notre vidéaste supposera dans toute la suite que les personnes qui ont regardé sa dernière vidéo sont représentatives de l’ensemble des personnes regardant ses vidéos ; les personnes interrogées parmi les personnes qui ont regardé sa dernière vidéo sont bien représentatives de l’ensemble des personnes regardant ses vidéos ; les personnes interrogées répondent bien par oui ou non à la question posée. Comment notre vidéaste peut-il modéliser mathématiquement sa situation ? 32/135 Modélisation : il s’agit d’un tirage sans remise de n ∶= 100 personnes sur une population totale de N ∶= 93414 personnes dernière vidéo), (les personnes ayant regardé sa dont une proportion θ possède la propriété qui intéresse notre vidéaste (càd répondent "oui" à sa question) ↝ notre vidéaste devrait donc modéliser la situation grâce à une loi hypergéométrique : E ∶= J0, nK, E ∶= P(E ), Pθ ∶= H(n, θ, N), Θ ∶= [0, 1], observation X , statistique de test T (X ) ∶= 33/135 X n , (proportion de "oui" observée) Mais, n est ici très petit par rapport à N... Est-ce que notre vidéaste ne pourrait pas utiliser une autre loi de probabilité usuelle pour modéliser son problème ? Point méthode Rappel : lorsque n θref ↝ φ(X ) ∶= 1{T (X )>θref } autrement dit avec R =]θref ; +∞[ 36/135 ; Mais pourquoi prend-il le test de la forme φ(X ) ∶= 1{T (X )>θref } ? Notre vidéaste rejette H0 quand T (X ) est "trop grand" (càd "supérieur à un certain seuil", ici θref ), car : ↝ si H1 est vraie, c-à-d si θ > θref , T (X ) étant de loi B(θ) sous Pθ aura tendance à prendre des valeurs plus grandes que sous H0 , c-à-d si θ ≤ θref. ↝ le comportement de la statistique T (X ) est donc bien différent sous H0 et sous H1 , et un tel test φ(X ) ∶= 1{T (X )>θref } est bien capable de différencier si l’on est sous H0 ou sous H1 (ce qui est précisément ce que l’on demande à un test !) 37/135 Cela tient à l’asymétrie de la loi binomiale B(n, p) pour p ≠ 21 (cf. Chapitre 0 & 1 n Feuille de TD 0) : pour p > 2 , "la masse est décalée vers la droite de 2 " (et inversement, pour p < 12 , "la masse est décalée vers la gauche de n2 ") 38/135 Déterminons le risque de première espèce du test φ(X ) ∶= 1{T (X )>θref } : α ∶ θ ∈ Θ0 ↦ Pθ (φ(X ) = 1) = Pθ (T (X ) > θref ) = 1 − Pθ (T (X ) ≤ θref ) n = 1 − Pθ ( ∑Xi ≤ θref n) = 1 − FB(n,θ) (θref n) i=1 A.N. : θref = 0.5, Θ0 = [0, θref ], n = 100, 39/135 α ∶ θ ∈ [0, 0.5] ↦ 1 − FB(100,θ) (50) ↝ α est une fonction croissante sur Θ0 = [0, θref ] = [0, 0.5] ↝ la taille du test φ(X ) est (à 10−3 près) α⋆ ∶= sup α(θ) = α( sup θ) = α(θref ) = α(0.5) ≃ 0.460 θ∈Θ0 θ∈Θ0 ↝ le test φ(X ) est de niveau α pour tout α ∈ [α⋆ , 1] ≃ [0.460, 1] ↝ si notre vidéaste dispose d’une réalisation x = (x1 ,... , xn ) de l’observation X = (X1 ,... , Xn ) : n Exemple ∑ xi = 53 : alors T (x ) = i=1 1 n n ∑ xi = 53/100 = 0.53 et i=1 φ(x ) = 1T (x )>0.5 = 1, donc, pour tout α ∈ [α⋆ , 1] ≃ [0.460, 1], notre vidéaste rejette H0 au niveau de risque α ; n Exemple ∑ xi = 49 : alors T (x ) = i=1 1 n n ∑ xi = 49/100 = 0.49 et i=1 φ(x ) = 1T (x )>0.5 = 0, donc, pour tout α ∈ [α⋆ , 1] ≃ [0.460, 1], notre vidéaste conserve H0 au niveau de risque α ; 40/135 C’est mieux comme taille que le test précédent (qui était de taille 0.5), mais notre vidéaste n’est toujours pas prêt à prendre un risque d’environ 0.46 de commettre une erreur de première espèce (=rejeter à tort H0 ). Notre vidéaste se demande si augmenter la taille n de son échantillon pourrait permettre de réduire la taille α⋆ de son test... 41/135 Il trace pour cela les courbes de risque de première espèce suivantes : α ∶ θ ∈ [0, 0.5] ( resp. [0.45, 0.5]) ↦ 1 − FB(n,θ) (0.5n), n = 102 , 103 , 104 Cela n’a pas l’air flagrant : supθ∈[0,θref ] α(θ) est toujours atteint en θref et semble être toujours proche de 0.5... 42/135 Point vocabulaire Ne pas confondre les termes taille du test et taille de l’échantillon. A partir de maintenant, par souci de simplicité de calculs, et étant donné que cela ne change pas son objectif final (qui est en réalité d’essayer de savoir si θ > 0.5), notre vidéaste simplifie son hypothèse nulle : il décide de tester H0 ∶ θ = θref contre H1 ∶ θ > θref avec donc Θ0 = {θref } et Θ1 =]θref ; 1], tout en gardant le même test : φ(X ) ∶= 1{T (X )>θref } La taille de son test est alors (en reprenant le calcul précédent) : α⋆ = sup (1 − FB(n,θ) (θref n) ) = 1 − FB(n,θref ) (θref n). θ∈Θ0 43/135 Il trace l’évolution de la taille de son test α⋆ en fonction de n : n ↦ α⋆ = 1 − FB(n,θref ) (θref n) Notre vidéaste se rend ainsi compte qu’il ne pourra pas descendre en dessous d’un risque de première espèce de 0.25 environ (atteint, contrairement à ce que l’on pourrait penser, pour de petites valeurs de n)... Mais c’est un risque qu’il n’est toujours pas prêt à prendre ! De plus, augmenter la taille de son échantillon n’apporte rien s’il ne modifie pas son test au préalable... Notre vidéaste a besoin d’une autre méthode... 44/135 Notre vidéaste décide de changer de point de vue. Notre vidéaste fixe à présent le niveau de risque α ∈ [0, 1] qu’il est prêt à prendre dans le rejet à tort de H0 (= comme erreur de 1ère espèce) et il va construire son test de la manière suivante : il choisit une statistique T (X ), qui dépend de X = (X1 ,... , Xn ), potentiellement de n, θref , mais pas de α, ni de θ, et dont il connaît la loi sous H0 ; il choisit une région de rejet Rα ⊂ R qui dépend de α, potentiellement de n, θref , mais pas de X , ni de θ ; il choisit pour test statistique φ(X ) = 1T (X )∈Rα ; tout cela de manière à ce que φ(X ) soit bien de niveau α, càd α⋆ = sup Pθ (φ(X ) = 1) ≤ α. θ∈Θ0 45/135 Point méthode Le choix de la forme de la région de rejet Rα dans le test φ(X ) = 1T (X )∈Rα se fait (surtout) en fct de la forme de H1. Pour un test dans un modèle paramétrique où Θ ⊂ R : Test "unilatéral droite" H1 ∶ θ > θref (H0 ∶ θ ≤ θref , ou H0 ∶ θ = θref ) ↝ φ(X ) = 1T (X )>kα (càd Rα =]kα ; +∞[ pour un certain seuil kα ∈ R) ; Test "unilatéral gauche" H1 ∶ θ < θref (H0 ∶ θ ≥ θref , ou H0 ∶ θ = θref ) ↝ φ(X ) = 1T (X )kα (càd Rα =] − ∞; θref − kα [∪]θref + kα ; +∞[, pour un certain seuil kα ∈ R⋆ +) Sinon : ↝ φ(X ) = 1{T (X )k (2) } α α (càd Rα =] − ∞; kα [∪]kα ; +∞[, pour certains seuils réels kα (1) 46/135 (2) (1) < kα ) (2). ; Notre vidéaste décide : de garder pour statistique T (X ) = T (X1 ,... , Xn ) = 1 n n ∑ Xi , i=1 et, étant donné que H1 ∶ θ > θref , de construire son test de la forme φ(X ) = 1T (X )>kα pour un certain réel kα qui dépend de α (et potentiellement de n, θref , mais pas de X , ni de θ ). 47/135 La fonction de risque de première espèce de son test est alors 1 n α ∶ θ ∈ Θ0 ↦ Pθ (φ(X ) = 1) = Pθ (T (X ) > kα ) = Pθ ( ∑Xi > kα ) n i=1 n = 1 − Pθ ( ∑Xi ≤ kα n ) = 1 − FB(n,θ) (kα n). i=1 Et, étant donné que Θ0 = {θref }, la taille de son test est donc : α⋆ = sup α(θ) = 1 − FB(n,θref ) (kα n) θ∈Θ0 Il cherche donc kα ∈ R tel que 1 − FB(n,θref ) (kα n) ≤ α i.e. FB(n,θref ) (kα n) ≥ 1 − α. Mais comment notre vidéaste peut-il trouver un tel kα ? 48/135 Point vocabulaire : Rappel de la définition des quantiles Le quantile de niveau γ ∈]0, 1[ d’une loi de probabilité P sur R de fonction de répartition F ∶ x ∈ R ↦ P(] − ∞; x ]) est le réel qγP ∶= inf {q ∈ R; F (q) ≥ γ} Le quantile de niveau 1 − α de la loi B(n, θref ) est donc B(n,θref ) q1−α = inf {q ∈ R; FB(n,θref ) (q) ≥ 1 − α}. En tant que fonction de répartition, FB(n,θref ) (.) est croissante, donc choisir kα tq FB(n,θref ) (kα n) ≥ 1 − α revient à choisir kα tq kα n ≥ q1−α B(n,θref ) , i.e. B(n,θref ) kα ≥ q1−α n Conclusion : pour un niveau de risque α ∈ [0, 1] quelconque, notre vidéaste a bien construit un test de niveau α en prenant : B(n,θref ) 49/135 q 1 n φα (X ) ∶= 1T (X )>kα avec T (X ) = ∑Xi et kα = 1−α n i=1 n. B(n,θref ) q Le fait de choisir exactement kα = 1−α n , et non pas un réel kα strictement supérieur à q B(n,θref ) 1−α n est dû à "hypothèse de maximalité de la région de rejet" que l’on impose aux tests dans ce cours (voir plus loin). A.N. pour θref = 0.5, n = 100 : notre vidéaste peut tracer la courbe du seuil obtenu kα en fonction de α. α ∈]0, 1[↦ kα = Exemple : pour α = 0.05, k0.05 = 50/135 B(n,θ q1−α ref n B(100,0.5) q0.95 100 ) = B(100,0.5) q1−α 100 = 0.58. Notre vidéaste décide de fixer son niveau de risque α = 0.05, et procède donc au test n φ0.05 (X ) = 1T (X )>k0.05 avec T (X ) = n1 ∑ Xi et k0.05 = 0.58. i=1 ↝ Notre vidéaste dispose à présent d’une réalisation x = (x1 ,... , xn ) de l’observation X = (X1 ,... , Xn ) : n Exemple ∑ xi = 59 : alors T (x ) = i=1 1 n n ∑ xi = 59/100 = 0.59 et i=1 φ0.05 (x ) = 1T (x )>0.58 = 1, donc notre vidéaste rejette H0 au niveau de risque α = 0.05 ; n Exemple ∑ xi = 53 : alors T (x ) = i=1 1 n n ∑ xi = 53/100 = 0.53 et i=1 φ0.05 (x ) = 1T (x )>0.58 = 0, donc notre vidéaste conserve H0 au niveau de risque α = 0.05 ; Mais à quel point H0 est-elle en adéquation (ou pas) avec ces réalisations x de l’observation X ? Peut-on quantifier cette adéquation (ou cette inadéquation) ? 51/135 Point Vocabulaire & Méthode (Méthodologie de Fisher) Supposons avoir construit une famille de tests φα (X ), chacun de niveau α, pour α ∈]0, 1[. La p-valeur associée à cette famille et à l’observation X est la v.a.r., à valeurs dans [0, 1], définie par π(X ) ∶= inf {α ∈]0, 1[; φα (X ) = 1} La p-valeur est donc le niveau à partir duquel on rejette H0 : ↝ pour un niveau de risque α < π(X ), on conserve H0 ; ↝ pour un niveau de risque α > π(X ), on rejette H0. Si l’on dispose d’une réalisation x de l’observation X , on calcule la p-valeur associée π(x ), et l’on adopte la règle de décision suivante : ↝ on conserve H0 au niveau de risque α si α < π(x ) ↝ on rejette H0 au niveau de risque α si α > π(x ) Utilisation pratique : la personne chargée de procéder à un test statistique indique, de manière objective, la p-valeur qu’elle a obtenue à un responsable (politique, économique,...) qui lui, doit prendre la décision de conserver ou de rejeter H0 : ce responsable fixe le seuil auquel il veut prendre sa décision, par exemple 5% : il rejette H0 lorsque la p-valeur est plus petite que 5% ; il conserve H0 lorsque la p-valeur est plus grande que 5%. 52/135 Point méthode : conditions fondamentales (cas test générique) On se place dans le cadre d’un modèle statistique de ce cours (E , E, F), muni d’une observation X de loi de probabilité P ∈ F, pour lequel on teste H0 ∶ P ∈ F0 contre H1 ∶ P ∈ F1 , pr F0 , F1 ⊂ F, F0 ∩ F1 = ∅ , grâce à une famille de tests statistiques (φα (X ) ∶= 1T (X )∈Rα )α∈]0,1[ tel que pour tout α ∈]0, 1[, φα (X ) soit de niveau α (i.e. sup PP (T (X ) ∈ Rα ) ≤ α). On supposera alors que (φα (X ))α∈]0,1[ vérifie : P∈F0 la condition de croissance : α ∈]0, 1[↦ φα (X ) est croissante ou encore : 0 < α1 ≤ α2 < 1 ⇒ Rα1 ⊂ Rα2 ; la condition de maximalité des régions de rejet (Rα )α∈]0,1[ : pour tout α ∈]0, 1[, si R est un ensemble tel que Rα ⊂ R et Rα ≠ R alors sup PP (T (X ) ∈ R) > α P∈F0 Nous supposerons dans toute la suite que les tests construits vérifient ces deux conditions. 53/135 Point méthode : conditions fondamentales (cas test paramétrique) On se place dans le cadre d’un modèle statistique paramétrique de ce cours (E , E, (Pθ )θ∈Θ ), muni d’une observation X de loi de probabilité P ∈ {Pθ }θ∈Θ , pour lequel on teste H0 ∶ θ ∈ Θ0 contre H1 ∶ θ ∈ Θ1 , pr Θ0 , ΘF1 ⊂ Θ, Θ0 ∩ Θ1 = ∅ , grâce à une famille de tests statistiques (φα (X ) ∶= 1T (X )∈Rα )α∈]0,1[ tel que pour tout α ∈]0, 1[, φα (X ) soit de niveau α (i.e. sup Pθ (T (X ) ∈ Rα ) ≤ α). On supposera alors que (φα (X ))α∈]0,1[ vérifie : θ∈Θ0 la condition de croissance : α ∈]0, 1[↦ φα (X ) est croissante ou encore : 0 < α1 ≤ α2 < 1 ⇒ Rα1 ⊂ Rα2 ; la condition de maximalité des régions de rejet (Rα )α∈]0,1[ : pour tout α ∈]0, 1[, si R est un ensemble tel que Rα ⊂ R et Rα ≠ R alors sup Pθ (T (X ) ∈ R) > α θ∈Θ0 Nous supposerons dans toute la suite que les tests (paramétriques) construits vérifient ces deux conditions. 54/135 Point Méthode : remarques pratiques sur la p-valeur La p-valeur permet de quantifier précisément la crédibilité de l’hypothèse H0 au vu de la réalisation x de l’observation X : plus π(x ) est faible, plus on a envie de rejeter H0 et plus cela nous donne confiance dans le fait de rejeter à raison H0 , car cela signifie que la valeur observée T (x ) de la statistique utilisée pour le test est atypique sous H0 , autrement dit la réalisation x de X vient en quelque sorte contredire H0. Mises en garde (ne faites-pas dire à la p-valeur ce qu’elle ne dit pas !) : - Une p-valeur petite n’implique pas que H0 est fausse ; une p-valeur grande n’implique pas que H0 est vraie. - Une p-valeur proche du niveau de risque α auquel la décision de conserver ou rejeter H0 doit se prendre ne donne pas beaucoup de confiance dans cette décision : si π(x ) < α avec π(x ) proche de α, on rejette H0 mais l’on n’est pas très confiant dans ce rejet. 55/135 Point Méthode : comment déterminer la p-valeur ? (cas test générique) Théorème de la p-valeur : on se place dans le cadre d’un modèle statistique de ce cours (E , E, F), muni d’une observation X de loi de probabilité P ∈ F, et d’une réalisation x de X , pour lequel on teste H0 ∶ P ∈ F0 contre H1 ∶ P ∈ F1 , pr F0 , F1 ⊂ F, F0 ∩ F1 = ∅ , grâce à une famille de tests statistiques (φα (X ))α∈]0,1[ non-asymptotiques de ce cours tel que ∀α ∈]0, 1[, φα (X ) soit de niveau α. Si φα (X ) = 1 ≥ ≥ T (X ) kα , alors π(x ) = sup PP (T (X ) T (x )) Si φα (X ) = 1 ≤ P∈F0 ≤ ≥ ≥ ∣T (X )∣ ≤ kα , alors π(x ) = sup PP (∣T (X )∣ ∣T (x )∣). P∈F0 ≤ La p-valeur est donc la probabilité que, sous H0 , T (X ) soit au moins aussi extrême que sa réalisation T (x ). Remarques : Bien penser à réécrire le test sous la forme du théorème avant de l’appliquer. Nous ne calculerons pas de p-valeurs pour des tests "two-sided" quand la loi de la statistique sous H0 n’est pas symétrique, ni de p-valeurs pour les tests asymptotiques, mais les commandes Python vous donneront toujours une p-valeur, même dans ces cas, et l’interprétation de cette p-valeur reste la même. 56/135 Point Méthode : comment déterminer la p-valeur ? (cas test paramétrique) Théorème de la p-valeur : on se place dans le cadre d’un modèle statistique de ce cours (E , E, (Pθ )θ∈Θ ), muni d’une observation X de loi de probabilité P ∈ {Pθ }θ∈Θ , et d’une réalisation x de X , pour lequel on teste H0 ∶ θ ∈ Θ0 contre H1 ∶ θ ∈ Θ1 , pr Θ0 , Θ1 ⊂ Θ, Θ0 ∩ Θ1 = ∅ , grâce à une famille de tests statistiques (φα (X ))α∈]0,1[ non-asymptotiques de ce cours tel que ∀α ∈]0, 1[, φα (X ) soit de niveau α. Si φα (X ) = 1 ≥ ≥ T (X ) kα , alors π(x ) = sup Pθ (T (X ) T (x )) Si φα (X ) = 1 ≤ θ∈Θ0 ≤ ≥ ≥ ∣T (X )∣ ≤ kα , alors π(x ) = sup Pθ (∣T (X )∣ ∣T (x )∣). θ∈Θ0 ≤ La p-valeur est donc la probabilité que, sous H0 , T (X ) soit au moins aussi extrême que sa réalisation T (x ). Remarques : Bien penser à réécrire le test sous la forme du théorème avant de l’appliquer. Nous ne calculerons pas de p-valeurs pour des tests "two-sided" quand la loi de la statistique sous H0 n’est pas symétrique, ni de p-valeurs pour les tests asymptotiques, mais les commandes Python vous donneront toujours une p-valeur, même dans ces cas, et l’interprétation de cette p-valeur reste la même. 57/135 Pour notre vidéaste, φα (X ) = 1T (X )>kα avec T (X ) = kα = B(n,θ q1−α ref n ) 1 n n ∑ Xi et i=1 n , ce qui revient à φα (X ) = 1 n B(n,θ ) ∑ Xi >q1−α ref i=1 , et comme ∑ Xi est i=1 à valeurs entières (dans E = J0, nK), cela revient aussi à φα (X ) = 1 B(n,θref ) X ≥ ⌊q1−α ⌋+1 =1 B(n,θref ) X ≥ q1−α car le quantile est un entier +1 donc, d’après le Théorème de la p-valeur, pour une réalisation x = (x1 ,... , xn ) de l’observation X = (X1 ,... , Xn ) π(x ) = sup Pθ (X ≥ x ) = sup (1 − FB(n,θ) (x − )) θ∈Θ0 θ∈Θ0 et, comme Θ0 = {θref }, finalement π(x ) = 1 − FB(n,θref ) (x − ) Rappel de notation : ∀t ∈ R, ⌊t⌋ est l’unique élément de Z tel que ⌊t⌋ ≤ t < ⌊t⌋ + 1. 58/135 (limite à gauche) n Exemple pr une réalisation x = (x1 ,... , xn ) tel que ∑ xi = 59 : alors i=1 π(x ) = 1 − FB(n,θref ) (59− ) = 1 − FB(n,θref ) (58) ≃ 0.044 ↝ 1 - scipy.stats.binom.cdf(58, 100, 0.5) ce qui signifie que la probabilité d’obtenir, sous H0 , une observation n X = (X1 ,... , Xn ) tel que ∑ Xi soit i=1 n n au moins aussi extrême que ∑ xi = 59, i=1 (c-à-d ici supérieure ou égale à ∑ xi = 59 étant donné que le test est i=1 "unilatéral droite"), est de (environ) 0.044 ↝ cette probabilité est a, donc x = (x1 ,... , xn ) est une réalisation atypique de X = (X1 ,... , Xn ) sous H0 ↝ les données (c-à-d la réalisation x = (x1 ,... , xn ) ) sont en désaccord avec H0. Pour un niveau de risque de 5%, on a α = 0.05 > π(x ) ≃ 0.044, donc on rejette H0 au niveau α = 5% (mais comme π(x ) est assez proche de 0.05, on n’accorde pas non plus trop de confiance à ce rejet de H0 ) 59/135 n Exemple pr une réalisation x = (x1 ,... , xn ) tel que ∑ xi = 53 : alors i=1 π(x ) = 1 − FB(n,θref ) (53− ) = 1 − FB(n,θref ) (52) ≃ 0.309 ↝ 1 - scipy.stats.binom.cdf(52, 100, 0.5) ce qui signifie que la probabilité d’obtenir, sous H0 , une observation n X = (X1 ,... , Xn ) tel que ∑ Xi soit i=1 n n au moins aussi extrême que ∑ xi = 53, i=1 (c-à-d ici supérieure ou égale à ∑ xi = 53 étant donné que le test est i=1 "unilatéral droite"), est de (environ) 0.309 ↝ cette probabilité est assez élevée, donc x = (x1 ,... , xn ) n’est pas une réalisation atypique de X = (X1 ,... , Xn ) sous H0 ↝ les données (c-à-d la réal. x = (x1 ,... , xn ) ) ne sont pas en désaccord avec H0. Pour un niveau de risque de 5%, on a α = 0.05 < π(x ) ≃ 0.309, donc on conserve H0 au niveau α = 5% 60/135 Commande Python pour obtenir les p-valeurs pour ce test binomial unilatéral droite : ↝ stats.binomtest(., n, θref , alternative="greater") avec. = 59 : BinomTestResult(k=59, n=100, alternative=’greater’, proportion− estimate=0.59, pvalue=0.044313040057033834) avec. = 53 : BinomTestResult(k=53, n=100, alternative=’greater’, proportion− estimate=0.53, pvalue=0.30864970679462606) Remarque : pour le test de H0 ∶ θ ≤ θref contre H1 ∶ θ > θref : ↝ stats.binomtest(., n, θref , alternative="greater") de H0 ∶ θ = θref contre H1 ∶ θ ≠ θref : ↝ stats.binomtest(., n, θref , alternative="two-sided") de H0 ∶ θ = θref contre H1 ∶ θ < θref , ou de H0 ∶ θ ≥ θref contre H1 ∶ θ < θref : ↝ stats.binomtest(., n, θref , alternative="less") 61/135 Mais au fait pourquoi notre vidéaste s’est-il autant embêté ? Pourquoi n’a-t-il pas juste pris le test trivial φ(X ) = 0 qui correspond à kα > 1 ? Son test serait alors bien de niveau α pour tout α ∈]0, 1[... Point Vocabulaire & Méthode H0 vraie H0 fausse conserver H0 ✓ erreur de seconde espèce = conserver à tort H0 rejeter H0 /accepter H1 erreur de première espèce = rejeter à tort H0 ✓ Idéalement, on souhaite que l’erreur de première espèce ET l’erreur de seconde espèce soient toutes deux simultanément petites. Le risque de seconde espèce du test φ(X ) est la fonction : β ∶ θ ∈ Θ1 ↦ Pθ (φ(X ) = 0) ∈ [0, 1] Il mesure la probabilité que le test conserve à tort l’hypothèse H0. On appelle puissance du test φ(X ) la fonction θ ∈ Θ1 ↦ 1 − β(θ). 62/135 Le test trivial φ(X ) = 0 qui consiste à conserver systématiquement l’hypothèse H0 , sans utiliser l’observation X , a bien un risque de première espèce nulle. Malheureusement son risque de seconde espèce est catastrophique puisqu’il est toujours égal à 1 : β ∶ θ ∈ Θ1 ↦ Pθ (φ(X ) = 0) = Pθ (0 = 0) = 1 (et en plus cela n’aide absolument pas notre vidéaste qui lui aimerait rejeter H0 tout en maîtrisant le risque qu’il prend en le faisant...) Méthodologie de Neyman-Pearson pr la construction de tests (en partie HP) Etape 1 (au programme, c’est exactement la philosophie de tout ce Chapitre 2 ) : cette méthodologie consiste à imposer une dissymétrie dans la problématique de test : on décide que le contrôle de l’erreur de première espèce est crucial ; Etape 2 (HP, c’est la partie introduite précisément par Neyman & Pearson ) : et parmi les tests qui ont une erreur de première espèce contrôlée, on choisit le (ou les) test(s) le(s) plus puissant(s), c’est-à-dire ayant une erreur de seconde espèce la plus petite possible. 63/135 Notre vidéaste a donc contruit, pour tout α ∈]0, 1[, un test statistique φα (X ) de niveau α de H0 ∶ θ = θref contre H1 ∶ θ > θref. Peut-il construire, pour tout α ∈]0, 1[, un test de taille α ? Reprenons la façon dont kα a été déterminé : étant donné que H1 ∶ θ > θref , notre vidéaste construit son test de la forme φ(X ) = 1T (X )>kα pour un certain réel kα qui dépend de α. La fonction de risque de première espèce de son test est 1 n α ∶ θ ∈ Θ0 ↦ Pθ (φ(X ) = 1) = Pθ (T (X ) > kα ) = Pθ ( ∑Xi > kα ) n i=1 n = 1 − Pθ ( ∑Xi ≤ kα n) = 1 − FBin(n,θ) (kα n) i=1 et, étant donné que Θ0 = {θref }, la taille de son test est α⋆ = sup α(θ) = 1 − FBin(n,θref ) (kα n). θ∈Θ0 64/135 Pour que son test statistique φ(X ) soit de taille α, notre vidéaste cherche donc kα ∈ R tel que 1 − FBin(n,θref ) (kα n) = α, i.e. FBin(n,θref ) (kα n) = 1 − α. Problème : FBin(n,θref ) n’est pas bijective, donc il n’y a pas de raison qu’un tel kα existe... Point méthode De manière générale, avec des lois non continues (par exemple des lois discrètes, comme la loi Binomiale), on n’est pas sûr de pouvoir construire de test d’une taille α précise, on sait seulement qu’on pourra construire un test de niveau α. Comment notre vidéaste peut-il procéder s’il souhaite absolument construire un test de taille α ? 65/135 Point méthode : construction de tests génériques asymptotiques On se place pr cela, dans ce cours, dans le cadre statistique suivant : un modèle de type "suite infinie i.i.d." (E , E, (P ⊗N )P∈F ), tel que tout P ∈ F admet un moment d’ordre 2 fini, muni d’une observation X = (Xi )i∈N⋆ de loi PX ∈ {P ⊗N }P∈F , c-à-d que les (Xi )i∈N⋆ sont indépendants et de même loi P ∈ F , pr lequel on teste H0 ∶ P ∈ F0 = {P0 } contre H1 ∶ P ∈ F1 , (F0 , F1 ⊂ F, F0 ∩ F1 = ∅) on considère la suite de statistiques (Tn (X ) ∶= pr α ∈]0, 1[, on construit une suite de tests où Rα ⊂ R est choisi de manière à ce que : √ n 1 n n ∑ Xi −EP0 [X1 ] √ VarP0 [X1 ] i=1 (φ∞ n ; α (X ) ) n∈N⋆ ∶= 1Tn (X )∈Rα )n∈N⋆ ↝ P(Z ∈ Rα ) = α pour Z ∼ N (0, 1) ↝ Tn (X ) ait plus tendance à être dans Rα sous H1 que sous H0. Comme d’après le Théorème Central-Limite Tn (X ) on a : ↝ On PP0 (φ∞ Ð→ α n ; α (X ) = 1) n→+∞ dit alors que φ∞ n ; α (X ) est un L sous PP0 Ð→ n→+∞ N (0, 1) , test asymptotique de taille α. Remarques : on parlera parfois de tests exacts pour désigner les tests non-asymptotiques. 66/135 Point méthode : construction de tests paramétriques asymptotiques On se place pr cela dans ce cours dans le cadre statistique suivant : un modèle paramétrique du type "suite infinie i.i.d." (E , E, (Pθ⊗N )θ∈Θ ), tel que, pour tout θ ∈ Θ, Pθ admet un moment d’ordre 2 fini, muni d’une observation X = (Xi )i∈N⋆ de loi PX ∈ {Pθ⊗N }θ∈Θ , c-à-d que les (Xi )i∈N⋆ sont indépendants et de même loi, appartenant à {Pθ }θ∈Θ pr lequel on teste H0 ∶ θ ∈ Θ0 = {θ0 } contre H1 ∶ θ ∈ Θ1 , (Θ0 , Θ1 ⊂ Θ, Θ0 ∩ Θ1 = ∅) on considère la suite de statistiques (Tn (X ) ∶= √ n 1 n n ∑ Xi −Eθ0 [X1 ] i=1 √ Varθ0 [X1 ] ) n∈N⋆ pr α ∈]0, 1[, on construit une suite de tests (φ∞ n ; α (X ) ∶= 1Tn (X )∈Rα )n∈N⋆ où Rα ⊂ R est choisi de manière à ce que : ↝ P(Z ∈ Rα ) = α pour Z ∼ N (0, 1) ↝ Tn (X ) ait plus tendance à être dans Rα sous H1 que sous H0. Comme d’après le Théorème Central-Limite Tn (X ) on a : Pθ0 (φ∞ n ; α (X ) ↝ On dit alors que L sous Pθ0 = 1) Ð→ α n→+∞ φ∞ n ; α (X ) est Ð→ n→+∞ N (0, 1) , un test asymptotique de taille α. Remarques : on parlera parfois de tests exacts pour désigner les tests non-asymptotiques. 67/135 Sous H0 ∶ θ = θref , X ∶= 1 n n ∑ Xi est un estimateur de θref i=1 consistant (LGN) : X asymptotiquement normal (TCL) : √ Pθref → θref , n→+∞ n√ X − θref θref (1 − θref ) LPθ → N (0, 1) , ref n→+∞ et l’on définit donc un test statistique asymptotique de taille α de H0 ∶ θ = θref contre H1 ∶ θ > θref par φ∞ α (X ) ∶= 1T (X )>q N (0,1) avec T (X ) ∶= 1−α puisqu’ainsi Pθref (φ∞ α (X ) = 1) → α n→+∞ √ X − θref n√ θref (1 − θref ) (sous H1 ∶ θ > θref et sous Pθ , comme pour n assez grand X est proche de θ par la LGN car les Xi sont i.i.d. de loi B(θ), on aura X − θref "grand" et donc T (X ) sera aussi "grand") 68/135 Point méthode Application pratique de cette approximation : dès que n > 30. Notre vidéaste décide de fixer son niveau de risque α = 0.05, et procède donc au test asymptotique φ∞ 0.05 (X ) = 1T (X )>q N (0,1) avec 0.95 √ T (X ) = 100 √ X −0.5 , pour l’observation X = (X1 ,... , X100 ). 0.5(1−0.5) ↝ N (0,1) q0.95 ≃ 1.64 avec scipy.stats.norm.ppf(0.95, 0, 1) Pour une réalisation x = (x1 ,... , x100 ) de l’observation X = (X1 ,... , X100 ) : Exemple x = 0.59 : alors T (x ) ≃ 1.8 et φ∞ 0.05 (x ) = 1T (x )>1.64 = 1, donc notre vidéaste rejette H0 au niveau de risque α = 0.05 ; Exemple x = 0.53 : alors T (x ) ≃ 0.6 et φ∞ 0.05 (x ) = 1T (x )>1.64 = 0, donc notre vidéaste conserve H0 au niveau de risque α = 0.05 ; Remarque : En toute généralité, pour construire des tests asymptotiques, on a aussi souvent besoin, en plus du Théorème Central-Limite, d’appliquer la Loi des Grands Nombres, le Lemme de Slutsky, le Théorème de l’application continue, ou encore la Delta-Méthode. 69/135 Limites de notre modélisation : Comment notre vidéaste a-t-il fixé le seuil de 50% ? Les personnes qui ont regardé sa dernière vidéo sont-elles représentatives de l’ensemble des personnes qui regardent ses contenus ? Les personnes tirées au sort sont-elles représentatives de l’ensemble des personnes qui ont regardé sa dernière vidéo ? Que faire si certaines des personnes tirées au sort ne répondent pas ? Que faire si la personne interrogée répond le contraire de ce qu’elle pense à la question posée ? ↝ méthode d’échantillonnage/de quotas/de redressement de la théorie des sondages (par exemple dans des sondages à visées politiques, où les personnes interrogées ne veulent pas avouer ce qu’ils pensent/votent réellement) Peut-on se débarrasser complètement de ces problèmes ? Non, ces problèmes sont inhérents à tout sondage. ↝ Avoir une vision critique sur la manière dont ont été obtenues les données est indispensable à toute étude statistique. 70/135 "Botanique" de tests statistiques Tests de conformité Présentation générale Test sur l’espérance d’une loi de variance connue : cas d’une loi normale (test de Student) cas d’une loi non normale de variance inconnue : cas d’une loi normale (test de Student) cas d’une loi non normale Test sur la variance d’une loi normale d’espérance connue d’espérance inconnue Test sur les quantiles (dont la médiane) d’une loi Tests d’adéquation Tests d’homogénéité 71/135 Tests de conformité Tests de conformité = Tests d’ajustement à un (des) paramètre(s) Le statisticien fixe une valeur de référence connue θref ∈ Θ, et une fonction connue g ∶ Θ → Rq , q ∈ N⋆ (rq : souvent q = p pr Θ ⊂ Rp , et g = IdRp ) Test bilatère : H0 ∶ g(θ) = g(θref ) contre H1 ∶ g(θ) ≠ g(θref ) Tests unilatères (lorsque q = 1) : à droite : H0 ∶ g(θ) = g(θref ) contre H1 ∶ g(θ) > g(θref ) ou : H0 ∶ g(θ) ≤ g(θref ) contre H1 ∶ g(θ) > g(θref ) à gauche : H0 ∶ g(θ) = g(θref ) contre H1 ∶ g(θ) < g(θref ) ou 72/135 H0 ∶ g(θ) ≥ g(θref ) contre H1 ∶ g(θ) < g(θref ) Point méthode Utiliser la méthode vue dans l’exemple d’introduction ; Utiliser les méthodes de construction d’estimateurs vues dans le Chapitre 1 (méthode des moments & du maximum de vraisemblance) et la dualité test statistique/intervalle de confiance Exemple pour le test de H0 ∶ g(θ) = g(θref ) contre H1 ∶ g(θ) ≠ g(θref ) A tte région de confiance Cn ; 1−α (X ) (pour l’observation X = (X1 ,... , Xn )) de niveau de confiance 1 − α pour l’estimation de g(θ) correspond un test statistique H0 contre H1 de niveau α : ↝ φn ; α (X ) ∶= 1g(θref ) ∉ Cn ; 1−α (X ) A tte région de confiance Cn∞; 1−α (X ) (pour l’observation X = (Xi )i∈N⋆ ) , de taille de confiance asymptotique 1 − α, pr l’estimation de g(θ), correspond un test statistique asymptotique de H0 contre H1 de taille α : ↝ φ∞ n ; α (X ) ∶= 1g(θref ) ∉ Cn∞; 1−α (X ) 73/135 1. Test sur l’espérance d’une loi 1.1 sachant que la variance de cette loi est connue 1.1.1 Cas d’une loi normale : Modèle statistique : (E , E) ∶= (Rn , B(Rn )), F = {N (µ, σ 2 )⊗n ; µ ∈ R}, σ 2 ∈ R⋆+ connu ; Observation X = (X1 ,... , Xn ) de loi N (µ, σ 2 )⊗n ∈ F , pour un certain µ ∈ R (càd que l’on observe un n-échantillon i.i.d. i.i.d. X1 ,... , Xn ∼ N (µ, σ 2 )) ; H0 ∶ µ = µ0ref , pour une valeur de référence µ0ref ∈ R (autrement dit H0 ∶ N (µ, σ 2 )⊗n ∈ F0 où F0 ∶= {N (µ0ref , σ 2 )⊗n }) ; √ 1 n n ∑ Xi −µ0ref Statistique de test T (X ) ∶= n i=1 σ ↝ d’après le Théorème Fondamental des Lois Normales (cf. Chap. 1) sous H0 , T (X ) ∼ N (0, 1) 74/135 1.1.1. Cas d’une loi normale (suite) : Test statistique de taille α ∈]0, 1[ de H0 ∶ µ = µ0ref contre H1 ∶ µ ≠ µ0ref (autrement dit H1 ∶ N (µ, σ2 )⊗n ∈ F±1 où F±1 ∶= {N (µ, σ2 )⊗n ; µ ≠ µ0ref }) : φ±α (X ) ∶= 1∣T (X )∣>qN (0,1) et π(x ) = Pµ0 (∣T (X )∣ ≥ ∣T (x )∣) ; 1− α 2 ref + 2 ⊗n H1 ∶ µ > (autrement dit H1 ∶ N (µ, σ 2 )⊗n ∈ F+ ; µ > µ0ref }) : 1 où F1 ∶= {N (µ, σ ) + φα (X ) ∶= 1T (X )>qN (0,1) et π(x ) = Pµ0 (T (X ) ≥ T (x )) ; µ0ref 1−α ref α ref H1 ∶ µ < µ0ref (autrement dit H1 ∶ N (µ, σ2 )⊗n ∈ F−1 où F−1 ∶= {N (µ, σ2 )⊗n ; µ < µ0ref }) : φ−α (X ) ∶= 1T (X ) µ0ref (resp. µ1ref < µ0ref )) 75/135 1.1.2. Cas d’une loi non-normale : Modèle statistique : (E , E) ∶= (Rn , B(Rn )), F = (Pµ⊗n )µ∈Θ où Θ = R, et Pµ loi de probabilité sur R d’espérance µ et de variance σ 2 , où σ 2 ∈ R⋆+ connu ; Observation X = (X1 ,... , Xn ) de loi Pµ⊗n ∈ F , pour un certain µ ∈ R i.i.d. (càd que l’on observe un n-échantillon i.i.d. X1 ,... , Xn ∼ Pµ ) ; H0 ∶ µ = µ0ref , pour une valeur de référence µ0ref ∈ R ⊗n (càd H0 ∶ Pµ ∈ F0 , avec F0 = {P ⊗n ∈ F; µ′ ∈ Θ0 } et Θ0 = {µ0ref }) ; µ′ S’il s’agit d’une famille de lois {Pµ }µ usuelle, on peut essayer de construire des tests statistiques de niveau α directement en utilisant les propriétés de cette famille de lois et ses quantiles ; pour construire des tests statistiques de taille α, cela ne sera pas toujours possible si ces lois ne sont pas continues, et dans ce cas il faut construire des tests asymptotiques comme ci-dessous ; 76/135 1.1.2. Cas d’une loi non-normale (suite) : Statistique de test T (X ) ∶= √ n 1 n n ∑ Xi −µ0ref i=1 σ ↝ d’après le Théorème Central-Limite, sous H0 , T (X ) → N (0, 1) L n→+∞ Test statistique asymptotique de taille α ∈]0, 1[ de H0 ∶ µ = µ0ref contre H1 ∶ µ ≠ µ0ref (autrement dit H1 ∶ Pµ⊗n ∈ F±1 , avec F±1 = {Pµ⊗n′ ∈ F; µ′ ≠ µ0ref }) : ±;∞ φ±;∞ α (X ) ∶= 1∣T (X )∣>q N (0,1) , Pµ0 (φα (X ) = 1) → α n→+∞ ref 1− α 2 H1 ∶ µ > (autrement dit H1 ∶ ∈ avec = ∈ F; µ > µ0ref }) : +;∞ +;∞ φα (X ) ∶= 1T (X )>qN (0,1) , Pµ0 (φα (X ) = 1) → α µ0ref ⊗n Pµ F+ 1, 1−α ref α ref F+ 1 {P ⊗n µ′ ′ n→+∞ H1 ∶ µ < µ0ref (autrement dit H1 ∶ Pµ⊗n ∈ F−1 , avec F−1 = {Pµ⊗n′ ∈ F; µ′ < µ0ref }) : −;∞ φ−;∞ α (X ) ∶= 1T (X ) 30 ; −;∞ 0 1 (Rq : on peut aussi utiliser φ+;∞ α (X ) (resp. φα (X )) pour tester asymptotiquement H0 ∶ µ = µref contre H1 ∶ µ = µref pour une certaine valeur de référence connue µ1ref ∈ R, telle que µ1ref > µ0ref (resp. µ1ref < µ0ref )) 77/135 1. Test sur l’espérance d’une loi 1.2 sachant que la variance de cette loi est inconnue 1.2.1 Cas d’une loi normale : Test de Student Vocabulaire : Est appelé en réalité test de Student tout test dont la statistique suit une loi de Student sous H0. Modèle statistique : (E , E) ∶= (Rn , B(Rn )), F = {N (µ, σ 2 )⊗n ; µ ∈ R}, σ 2 ∈ R⋆+ inconnu ; Observation X = (X1 ,... , Xn ) de loi N (µ, σ 2 )⊗n ∈ F , pour un certain µ ∈ R (càd que l’on observe un n-échantillon i.i.d. i.i.d. X1 ,... , Xn ∼ N (µ, σ 2 )) ; H0 ∶ µ = µ0ref , pour une valeur de référence µ0ref ∈ R H0 ∶ N (µ, σ 2 )⊗n ∈ F0 où F0 ∶= {N (µ0ref , σ 2 )⊗n }) ; Statistique de test T (X ) ∶= √ n n ∑ Xi −µ0ref i=1 √ n 1 (Xi −X n )2 n−1 ∑ i=1 (autrement dit 1 n ↝ d’après le Théorème Fondamental des Lois Normales (cf. Chap. 1) sous H0 , T (X ) ∼ t(n − 1) 78/135 1.2.1. Cas d’une loi normale : test de Student (suite) : Test de Student de taille α ∈]0, 1[ de H0 ∶ µ = µ0ref contre H1 ∶ µ ≠ µ0ref (autrement dit H1 ∶ N (µ, σ2 )⊗n ∈ F±1 où F±1 ∶= {N (µ, σ2 )⊗n ; µ ≠ µ0ref }) : φ±α (X ) ∶= 1∣T (X )∣>qt(n−1) et π(x ) = Pµ0 (∣T (X )∣ ≥ ∣T (x )∣) 1− α 2 ref + 2 ⊗n H1 ∶ µ > (autrement dit H1 ∶ N (µ, σ 2 )⊗n ∈ F+ ; µ > µ0ref }) : 1 où F1 ∶= {N (µ, σ ) + φα (X ) ∶= 1T (X )>qt(n−1) et π(x ) = Pµ0 (T (X ) ≥ T (x )) µ0ref 1−α ref α ref H1 ∶ µ < µ0ref (autrement dit H1 ∶ N (µ, σ2 )⊗n ∈ F−1 où F−1 ∶= {N (µ, σ2 )⊗n ; µ < µ0ref }) : φ−α (X ) ∶= 1T (X ) µ0ref (resp. µ1ref < µ0ref )) 79/135 En pratique, on utilisera cette approximation dès que n > 30 ; Commandes Python : scipy.stats.ttest− 1samp(a = x, popmean = µ0ref , alternative="two-sided") scipy.stats.ttest− 1samp(a = x, popmean = µ0ref , alternative="greater") scipy.stats.ttest− 1samp(a = x, popmean = µ0ref , alternative="less") 80/135 1.2.2. Cas d’une loi non-normale : test asymptotique de Student : Modèle statistique : (E , E) ∶= (Rn , B(Rn )), F = (Pµ⊗n )µ∈Θ où Θ = R, et Pµ loi de probabilité sur R d’espérance µ et de variance σ 2 , où σ 2 ∈ R⋆+ inconnu ; Observation X = (X1 ,... , Xn ) de loi Pµ⊗n ∈ F , pour un certain µ ∈ R i.i.d. (càd que l’on observe un n-échantillon i.i.d. X1 ,... , Xn ∼ Pµ ) ; H0 ∶ µ = µ0ref , pour une valeur de référence µ0ref ∈ R ⊗n (càd H0 ∶ Pµ ∈ F0 , avec F0 = {P ⊗n ∈ F; µ′ ∈ Θ0 } et Θ0 = {µ0ref }) ; µ′ S’il s’agit d’une famille de lois {Pµ }µ usuelle, on peut essayer de construire des tests statistiques de niveau α directement en utilisant les propriétés de cette famille de lois et ses quantiles ; pour construire des tests statistiques de taille α, cela ne sera pas toujours possible si ces lois ne sont pas continues, et dans ce cas il faut construire des tests asymptotiques comme ci-dessous ; 81/135 1.2.2. Cas d’une loi non-normale (suite) : Statistique de test T (X ) ∶= √ n√ 1 n n ∑ Xi −µ0ref i=1 n 1 n−1 ∑ (Xi −X n )2 i=1 d’après le Théorème Fondamental des Lois Normales, le Théorème Central-Limite & le Lemme de Slutsky, sous H0 , T (X ) → t(n − 1) L n→+∞ Test asymptotique de Student de taille α ∈]0, 1[ de H0 ∶ µ = µ0ref contre H1 ∶ µ ≠ µ0ref (autrement dit H1 ∶ Pµ⊗n ∈ F±1 , avec F±1 = {Pµ⊗n′ ∈ F; µ′ ≠ µ0ref }) : ±;∞ φ±;∞ α (X ) ∶= 1∣T (X )∣>q t(n−1) , Pµ0 (φα (X ) = 1) → α 1− α 2 n→+∞ ref ∈ F; µ′ > µ0ref }) : ∈ avec = contre H1 ∶ µ > (autrement dit H1 ∶ +;∞ +;∞ φα (X ) ∶= 1T (X )>qt(n−1) , Pµ0 (φα (X ) = 1) → α µ0ref ⊗n Pµ 1−α ref α ref F+ 1, F+ 1 {P ⊗n µ′ n→+∞ contre H1 ∶ µ < µ0ref (autrement dit H1 ∶ Pµ⊗n ∈ F−1 , avec F−1 = {Pµ⊗n′ ∈ F; µ′ < µ0ref }) : −;∞ φ−;∞ α (X ) ∶= 1T (X ) µ0ref (resp. µ1ref < µ0ref )) 82/135 2. Test sur la variance d’une loi NORMALE 2.1 sachant que l’espérance de cette loi est connue Modèle statistique : (E , E) ∶= (Rn , B(Rn )), F = {N (µ, σ 2 )⊗n ; σ ∈ R⋆+ }, µ ∈ R connu ; Observation X = (X1 ,... , Xn ) de loi N (µ, σ 2 )⊗n ∈ F , pour un certain σ ∈ R⋆+ (càd que l’on observe un n-échantillon i.i.d. i.i.d. X1 ,... , Xn ∼ N (µ, σ 2 )) ; H0 ∶ σ = σref , pour une valeur de référence σref ∈ R (0) (0) (autrement dit H0 ∶ N (µ, σ 2 )⊗n ∈ F0 où cet ensemble est le singleton {N (µ, (σref )2 )⊗n } ) (0) n ; 2 −µ Statistique de test T (X ) ∶= ∑ ( Xi(0) ) i=1 σref ↝ d’après le Théorème Fondamental des Lois Normales (cf. Chap. 1) sous H0 , T (X ) ∼ χ2 (n) (Attention : χ2 (n) n’est pas une loi symétrique, son support est R+ !) 83/135 Test statistique de taille α ∈]0, 1[ de H0 ∶ σ = σref contre (0) H1 ∶ σ ≠ σref φ±α (X ) ∶= 1 (0) ± 2 ⊗n (autrement dit H1 ∶ N (µ, σ 2 )⊗n ∈ F± ; σ ≠ σref }) 1 où F1 ∶= {N (µ, σ ) (0) χ2 (n) {T (X )q1− α } 2 test "two-sided" et la loi χ2 (n) n’est pas symétrique) H1 ∶ σ > σref φ+α (X ) ∶= 1 2 ; + 2 ⊗n (autrement dit H1 ∶ N (µ, σ 2 )⊗n ∈ F+ ; σ > σref }) 1 où F1 ∶= {N (µ, σ ) (0) et π(x ) = P (0) H1 ∶ σ < φ−α (X ) ∶= 1 χ2 (n) T (X )q1−α 0 (0) σref (autrement dit H1 ∶ N (µ, σ2 )⊗n ∈ F−1 où F−1 ∶= {N (µ, σ2 )⊗n ; σ < σref }) 2 : : et π(x ) = Pσ(0) (T (X ) ≤ T (x )) ; ref où x = (x1 ,. , xn ) réalisation de l’observation X = (X1 ,. , Xn ) − (Rq : on peut aussi utiliser φ+ α (X ) (resp. φα (X )) pour tester H0 ∶ σ = σref contre H1 ∶ σ = σref pour une certaine valeur de (0) référence connue 84/135 (1) σref ∈ R, telle que (1) σref > (0) σref (resp. (1) σref < (0) σref )) (1) 2. Test sur la variance d’une loi NORMALE 2.2 sachant que l’espérance de cette loi est inconnue Modèle statistique : (E , E) ∶= (Rn , B(Rn )), F = {N (µ, σ 2 )⊗n ; σ ∈ R⋆+ }, µ ∈ R inconnu ; Observation X = (X1 ,... , Xn ) de loi N (µ, σ 2 )⊗n ∈ F , pour un certain σ ∈ R⋆+ (càd que l’on observe un n-échantillon i.i.d. i.i.d. X1 ,... , Xn ∼ N (µ, σ 2 )) ; H0 ∶ σ = σref , pour une valeur de référence σref ∈ R (0) H0 ∶ N (µ, σ 2 )⊗n ∈ F0 où cet ensemble est le singleton {N (µ, (σref )2 )⊗n } ) ; (0) (0) n n Statistique de test T (X ) ∶= ∑ ( Xi −X (0) ) i=1 (autrement dit 2 σref ↝ d’après le Théorème Fondamental des Lois Normales (cf. Chap. 1) sous H0 , T (X ) ∼ χ2 (n − 1) (Attention : χ2 (n − 1) n’est pas une loi symétrique, son support est R+ !) 85/135 Test statistique de taille α ∈]0, 1[ de H0 ∶ σ = σref contre (0) H1 ∶ σ ≠ σref φ±α (X ) ∶= 1 (0) ± 2 ⊗n (autrement dit H1 ∶ N (µ, σ 2 )⊗n ∈ F± ; σ ≠ σref }) 1 où F1 ∶= {N (µ, σ ) (0) χ2 (n−1) χ2 (n−1) }∪{T (X )>q1− α } 2 2 2 c’est un test "two-sided" et la loi χ (n − 1) n’est pas symétrique) : (nous ne calculons pas de p-valeur, {T (X ) σref φ+α (X ) ∶= 1 (0) + 2 ⊗n (autrement dit H1 ∶ N (µ, σ 2 )⊗n ∈ F+ ; σ > σref }) 1 où F1 ∶= {N (µ, σ ) (0) et π(x ) = P (0) (T (X ) ≥ T (x )) ; χ (n−1) σref T (X )>q1−α 0 (0) σref (autrement dit H1 ∶ N (µ, σ2 )⊗n ∈ F−1 où F−1 ∶= {N (µ, σ2 )⊗n ; σ < σref }) 2 H1 ∶ σ < φ−α (X ) ∶= 1 χ2 (n−1) T (X ) (0) σref (resp. (1) σref < (0) σref )) (1) 3. Test sur les quantiles (dont la médiane) d’une loi : Modèle statistique : E = Rn , E = B(Rn ) Observation : X = (X1 ,... , Xn ) de loi P ⊗n H0 ∶ qγP = c pour certains γ ∈]0, 1[ et c ∈ R, tous deux connus Commandes Python : Test de H0 contre H1 ∶ qγP ≠ c : ↝ stats.quantile− test(x, c, γ, alternative="two-sided") H1 ∶ qγP > c : ↝ stats.quantile− test(x, c, γ, alternative="greater") H1 ∶ qγP < c : ↝ stats.quantile− test(x, c, γ, alternative="greater") Rq : pr γ = 0.5 et c = 0, H0 devient "la médiane de la loi P est nulle". 87/135 "Botanique" de tests statistiques Tests de conformité Tests d’adéquation Présentation générale Test du χ2 d’adéquation à une loi discrète Test de Kolmogorov-Smirnov d’adéquation à une loi continue à densité Autres tests d’adéquation à la loi normale Tests d’homogénéité 88/135 Tests d’adéquation à une (des) loi(s) Problématique : on dispose de données, d’une série de valeurs numériques, et l’on voudrait déterminer de quelle famille de lois de probabilités cet échantillon pourrait provenir. ↝ Approche empirique (voir le Chapitre 1, partie Statistiques descriptives ) ↝ Déterminer un résumé chiffré des données : nombre d’observations, minimum, maximum, moyenne, médiane, écart-type, variance, quartiles ; ↝ Afficher un histogramme des données : matplotlib.pyplot.hist ↝ Avoir en tête les questions suivantes et procéder par élimination : Support de la loi ? discret ? à support fini ? ↝ lois uniformes discrètes, binomiales (dont Bernoulli), hypergéométrique,... à support "infini" ? ↝ lois de Poisson, géométrique,... "continu" ? compact ? ↝ lois uniformes continues, Bêta,... R+ ? ↝ lois exponentielles, gamma, χ2 , de Fisher-Snedecor,... R ? ↝ lois normales, de Cauchy, de Student,... 89/135 symétrie (↝ skewness) ? aplatissement (↝ kurtosis ) ? unimodal ? bimodal ? (Hors-Programme) ↝ Une fois que l’on a trouvé une famille potentielle de lois : si c’est une famille de lois discrètes : estimer la fonction de masse ; faire un test d’adéquation du χ2 ; si c’est une famille de lois continues à densité : méthode générale : estimer les paramètres de la loi tracer un diagramme quantile-quantile (Q-Q plot) faire un test d’adéquation à une loi de Kolmogorov-Smirnov (KS) pour les lois normales : faire un test de KS d’adéquation à une famille de lois normales (cf. Annexe à la Feuille 1 de TD + Feuille de TD2) pour les lois exponentielles : faire un test de KS d’adéquation à une famille de lois exponentielles (cf. Annexe à la Feuille 1 de TD + Feuille de TD2) 90/135 Diagramme quantile-quantile (= Q-Q plot) Un même outil pour trois objectifs : comparaison de deux lois de probabilités P1 et P2 , continues, à densité : le diagramme quantile-quantile est la courbe paramétrée α ∈]0, 1[↦ (qαP1 , qαP2 ) ; plus cette courbe est proche de la 1ère bissectrice (y = x ), plus les lois sont proches. Exemple : on sait que si (Zn )n∈N⋆ tel que ∀n ∈ N⋆ , Zn ∼ t(n), alors Zn 91/135 → N (0, 1), comparons donc les lois t(n) et N (0, 1) : L n→+∞ comparaison de la loi d’un échantillon et d’une loi de référence : soit x = (x1 ,... , xn ) une réalisation d’une observation X = (X1 ,... , Xn ) de loi P continue à densité inconnue Pref une loi de référence continue à densité ↝ le diagramme quantile-quantile est le scatterplot Pref x i ∈ J1, nK ↦ (q̂i/n , qi/n ) où, pr tt α ∈]0, 1[, q̂αx est le quantile empirique de niveau α associé à x rappel (cf. Chapitre 1) : q̂α (x ) = inf {v ∈ R ; 1 n n ∑ 1]−∞;v ] (xi ) ≥ α } i=1 ↝ plus ces points sont proches de la 1ère bissectrice (y = x ), plus P est proche de Pref Exemple : x = (5.02, 3.18, 4.47, 0.19, 3.62, -0.66, 3.13, 2.13, 3.41, 1.78) et P = N (3, 4) 92/135 comparaison des lois de deux échantillons : soit x = (x1 ,... , xn ) une réalisation d’une observation X = (X1 ,... , Xn ) de loi PX continue à densité inconnue y = (y1 ,... , yn ) une réalisation d’une observation Y = (Y1 ,... , Yn ) de loi PY continue à densité inconnue ↝ le diagramme quantile-quantile est le scatterplot y x i ∈ J1, nK ↦ (q̂i/n ) , q̂i/n ↝ plus ces points sont proches de la 1ère bissectrice (y = x ), plus PX est proche de PY Exemple : x = (5.02, 3.18, 4.47, 0.19, 3.62, -0.66, 3.13, 2.13, 3.41, 1.78) et y = (3.89, 1.76, 0.56, 2.68, 3.19, 1.18, 4.18, -0.94, 4.45, 2.31) 93/135 Test du χ2 d’adéquation à une loi discrète Avertissement : tout ce qui concerne ce test est admis Modèle statistique : E ∶= {v1 ,... , vd }n , E ∶= P(E ) où d ≥ 2, v1 ,... , vd valeurs de même type (nominales, numériques, catégorielles,...) deux à deux distinctes, F ∶= {P ⊗n ; P loi de probabilité sur {v1 ,... , vd }} ↝ une loi de probabilité P sur {v1 ,... , vd } est caractérisée par le d d-uplet (p1 ,... , pd ) ∈ [0, 1]d , pi ∶= P({vi }) (d’où i=1 ∑ pi = 1) par abus de notation, nous écrirons P = (p1 ,... , pd )) ; Observation X = (X1 ,... , Xn ) de loi P ⊗n ∈ F (càd que l’on observe un i.i.d. n-échantillon i.i.d. X1 ,... , Xn ∼ P) ; H0 ∶ P = P ref où P ref = (p1ref ,... , pdref ) ∈]0, 1[d loi de référence sur {v1 ,... , vd } (càd H0 ∶ P ⊗n ∈ F0 où cet ensemble est le singleton {(P ref )⊗n } ) ; 94/135 Statistique du test du χ2 : ref 2 d p i,n − pi ) ̂n , P ref ) ∶= n ∑ (̂ T (X ) = Dn2 (P piref i=1 ̂n ∶= (̂ où P p1,n ,... , ̂ pd,n ), ̂ pi,n ∶= 1 n n ∑ 1Xj =vi j=1 ↝ sous H0 , T (X ) → χ (d − 1) ; L 2 n→+∞ Test asymptotique de taille α ∈]0, 1[ de H0 ∶ P = P ref contre H1 ∶ P ≠ P ref càd H0 ∶ ∀i ∈ J1, dK, pi = piref contre H1 ∶ ∃i ∈ J1, dK, pi ≠ piref : φ∞ α (X ) ∶= 1 χ2 (d−1) T (X )>q1−α 95/135 Conditions d’application pratique : n ≥ 30, et ∀i ∈ J1, dK, npiref ≥ 5 Commande Python : ̂n , f− exp=P ref ) scipy.stats.chisquare(f− obs=P 96/135 Test de Kolmogorov-Smirnov d’adéquation à une loi continue à densité Exemple : on cherche à savoir si la série de valeurs x = (5.02, 3.18, 4.47, 0.19, 3.62, -0.66, est la réalisation d’un 10-échantillon i.i.d. de loi N (3, 4) 3.13, 2.13, 3.41, 1.78) Modèle statistique : E = Rn , E = B(Rn ), F = {PF⊗n ; F f.d.r. continue, à densité, sur R}, où l’on note PF l’unique loi de probabilité sur (R, B(R)) de f.d.r. F ; Observation X = (X1 ,... , Xn ) de loi PF⊗n ∈ F (càd que l’on observe un i.i.d. n-échantillon i.i.d. X1 ,... , Xn ∼ PF de f.d.r. F continue à densité sur R) ; H0 ∶ F = Fref pour une f.d.r. de référence Fref continue à densité sur R (càd H0 ∶ PF⊗n ∈ F0 où F0 ∶= {PF⊗n } ou encore H0 ∶ PF⊗n = PF⊗n ) ref ref Contre H1 ∶ F ≠ Fref 97/135 (càd H1 ∶ PF⊗n ∈ F1 où F1 ∶= F ∖ F0 ou encore H1 ∶ PF⊗n ≠ PF⊗n ) ref Statistique du test de Kolmogorov-Smirnov : ̂n (v ) − Fref (v )∣ T (X ) ∶= ∣∣F̂n − Fref ∣∣ = sup ∣F ∞ v ∈R où F̂n est la fonction de répartition empirique (f.d.r.) empirique associée à l’observation X = (X1 ,... , Xn ) ↝ rappels (cf. Chapitre 1) : la statistique de f.d.r. empirique est Secdf ∶ X = (X1 ,... , Xn ) ∈ Rn 1 n 1 n ↦ (F̂ X ∶ v ∈ R ↦ ∑ 1]−∞;v ] (Xi ) = ∑ 1Xi ≤v ) n i=1 n i=1 et la f.d.r. empirique est notée également F̂n à la place de F̂ X (lorsqu’il n’y a pas d’ambiguité sur l’obs. concernée, ce qui est le cas pour nous ici) c’est donc une fonction aléatoire ↝ ∀v ∈ R, F̂n (v ) est une v.a.r. : 1 n F̂n ∶ v ∈ R ↦ ( F̂n (v ) ∶ ω ∈ Ω ↦ F̂n (v )(ω) = ∑ 1]−∞;v ] (Xi (ω)) n i=1 1 n 1 n = F̂n (ω, v ) = ∑ 1Xi ≤v (ω) = ∑ 1Xi (ω)≤v ) n i=1 n i=1 98/135 ̂x ∶ v ∈ R ↦ Exemple (suite) : graphique de F 1 n n ∑ i=1 1]−∞;v ] (xi ) et de FN (3,4) On calcule explicitement T (X ) = ∣∣F̂n − Fref ∣∣∞ grâce à la formule j j −1 )) T (X ) = max ( max ( − Fref (X(j) ) ; Fref (X(j) ) − 1≤j≤n n n (rappel : (X(1) ,... , X(n) ) est (X1 ,... , Xn ) réordonné par ordre croissant) 99/135 Exemple (suite) : ici (x(1) ,... , x(10) ) = 100/135 (-0.66 0.19 1.78 2.13 3.13 3.18 3.41 3.62 4.47 5.02) Exemple (suite) : on a (à 10−3 près) ( Fref (X(j) ) − j−1 ) n j∈J1,nK = (0.034, -0.02, 0.071, 0.032, 0.126, 0.036, -0.019, -0.078, -0.031, -0.056) ( nj − Fref (X(j) ) )j∈J1,nK = (0.066, 0.12, 0.029, 0.068, -0.026, 0.064, 0.119, 0.178, 0.131, 0.156) le maximum est donc atteint au point x(8) = 3.62, et la statistique de Kolmogorov-Smirnov a pour valeur (à 10−3 près) T (x ) ≃ 0.178 Sous H0 , la loi de T (X ) ne dépend pas de Fref et est précisément KS(n), définie comme étant la loi (continue) de n ̂ n − FU([0,1]) ∣∣ = sup ∣ 1 ∑ 1U ≤t − t∣ ∣∣G ∞ i t∈[0,1] n i=1 i.i.d. ̂ n est la f.d.r. empirique de U1 ,... , Un où U1 ,... , Un ∼ U([0, 1]) et G Test de Kolmogorov-Smirnov d’adéquation à Fref de taille α ∈]0, 1[ ↝ φα (X ) ∶= 1T (X )>qKS(n) 1−α ↝ π(x ) = PFref (T (X ) ≥ T (x )) = 1 − FKS(n) (T (x )) pour x = (x1 ,... , xn ) une réalisation de l’observation X = (X1 ,... , Xn ) 101/135 Application pratique : la loi de Kolmogorov-Smirnov KS(n) est tabulée en Python ↝ scipy.stats.kstwo.*(. ,n) KS(n) ( donc a fortiori les valeurs q1−α ↝ scipy.stats.kstwo.ppf(1-α,n) ) pas d’ex-aequo dans l’échantillon (si n est grand et qu’il y a des ex aequo, on peut modifier très légèrement les valeurs ex aequo de façon à ce qu’il n’y en ait plus, et l’on passe au test de Kolmogorov-Smirnov asymptotique, voir ci-dessous) Exemple (suite) : KS(10) pr α = 0.05, q0.95 = stats.kstwo.ppf(0.95, 10) ≃ 0.409, d’où, comme T (x ) ≃ 0.178, φ0.05 (x ) = 1T (x )>qKS(10) = 0 , 0.95 et donc on conserve H0 au niveau 5% la p-valeur est π(x ) = 1 - stats.kstwo.cdf(T (x ), 10) ≃ 0.855 elle est très élevée, les données que nous avons étudiées ne sont donc pas du tout aberrantes sous l’hypothèse que H0 est vraie, cela nous encourage à conserver H0 , avec confiance en notre décision. 102/135 Commande Python : ↝ scipy.stats.kstest(x , "law ", args) x étant la réalisation de l’observation X , law la loi de référence, et args les paramètres de cette loi de référence. Exemple (suite) : la commande scipy.stats.kstest(x, "norm", (3, numpy.sqrt(4))) renvoie : KstestResult(statistic=0.17828047817798076, pvalue=0.8550367627573159) rappel : nous avions trouvé T (x ) ≃ 0.178 et π(x ) ≃ 0.855 Remarque : si n est grand, on pourra aussi utiliser la loi limite de 103/135 √ nT (X ) (cf. Chap. 1) ↝ scipy.stats.kstwobign.* Autres tests d’adéquation à une loi normale Problématique : ds de nombreux modèles statistiques (régressions linéaires, séries temporelles,...), on travaille sous des hypothèses de normalité, il est donc essentiel de pouvoir tester cette hypothèse de normalité. On s’intéressera ici uniquement aux commandes Python correspondant à ces tests. Modèle statistique : E = Rn , E = B(Rn ), F = {PF⊗n ; F f.d.r. continue, à densité, sur R}, où l’on note PF l’unique loi de probabilité sur (R, B(R)) de f.d.r. F ; Observation X = (X1 ,... , Xn ) de loi PF⊗n ∈ F (càd que l’on observe un i.i.d. n-échantillon i.i.d. X1 ,... , Xn ∼ PF où F continue, à densité, sur R) ; H0 ∶ F ∈ { FN (µ,σ2 ) ; (µ, σ 2 ) ∈ R × R⋆+ } (càd H0 ∶ PF⊗n ∈ F0 où F0 ∶= { N (µ, σ 2 ) ⊗n ; (µ, σ 2 ) ∈ R × R⋆ + }) Contre H1 ∶ F ∉ { FN (µ,σ2 ) ; (µ, σ 2 ) ∈ R × R⋆+ } ou encore H1 ∶ PF⊗n ∉ { N (µ, σ 2 ) ⊗n ; (µ, σ 2 ) ∈ R × R⋆ + }) 104/135 (càd H1 ∶ PF⊗n ∈ F1 où F1 ∶= F ∖ F0 Reprenons notre exemple x = (5.02, 3.18, 4.47, 0.19, 3.62, -0.66, 3.13, 2.13, 3.41, 1.78) : on cherche à savoir si x est la réalisation d’un 10-échantillon i.i.d. d’une loi normale. Test de normalité de Shapiro-Wilk ↝ stats.shapiro(x=x ) Ex (suite) : ShapiroResult(statistic=0.940060019493103, pvalue=0.5536814332008362) Test de normalité de Jarque-Bera : ↝ stats.jarque− bera(x=x ) Ex : Jarque− beraResult(statistic=0.7453972536732684, pvalue=0.6888728093410997) 105/135 Test de normalité d’Anderson-Darling ↝ stats.anderson(x=x ) renvoie une statistique et les seuils associés resp. aux niveaux de confiance α = 15%, 10%, 5%, 2.5%, 1% : si la statistique est inférieure au premier seuil, on conserve H0 au niveau 15%, si elle est entre le premier et le deuxième seuil, on rejette H0 au niveau 15% mais on conserve H0 au niveau 10%, etc. Ex (suite) : AndersonResult(statistic=0.3146718146286709, critical− values=array([0.501,0.57,0.684,0.798,0.95]), significance− level=array([15., 10., 5., 2.5, 1.])) ici on conserve H0 au niveau 15%. "Botanique" de tests statistiques Tests de conformité Tests d’adéquation Tests d’homogénéité Présentation générale Test du signe Test de Wilcoxon des rangs signés Test de Student d’égalité des moyennes Test de Mann-Whitney Test d’homogénéité de Kolmogorov-Smirnov Test d’homogénéité du χ2 106/135 Tests d’homogénéité Problématique : on dispose de deux échantillons de données x , y , provenant d’observations X , Y , et on voudrait déterminer si X et Y sont de même loi, ou du moins se "comportent de la même manière". Approche empirique : reprendre les étapes présentées pour les tests d’adéquation, mais cette fois-ci en comparant les résultats numériques/graphiques (↝ qqplot) obtenus pour les deux échantillons. Plusieurs sortes de tests : tests sur des comportements "moyens" tests globaux sur les lois 107/135 Cadre général : on dispose de deux échantillons U1 ,... , Un et V1 ,... , Vp (n, p ∈ N⋆ ) ; Problématique générale : est-ce que les Ui et les Vj "se comportent pareil", ou bien est-ce que les Ui ont tendance à prendre des valeurs plus grandes/plus petites que celles des Vj ? Exemple de situation concrète où cette problématique se pose : une entreprise pharmaceutique veut comparer l’efficacité de deux traitements T1 et T2, elle recrute pour cela deux groupes de patients volontaires numérotés I1,1 ,... , I1,n pour le 1er groupe, qui va recevoir le traitement T1, et I2,1 ,... , I2,p pour le 2ème groupe, qui va recevoir le traitement T2, avec n, p ∈ N⋆. Les patients ne savent pas quel traitement ils reçoivent. Pour 1 ≤ i ≤ n, l’individu I1,i évalue l’efficacité du traitement qu’il reçoit par Ui ; pour 1 ≤ j ≤ p, l’individu I2,j évalue l’efficacité du traitement qu’il reçoit par Vj. 1 Cas n = p 2 Cas où n et p peuvent être différents 108/135 1 Cas n = p : 1.1 Cas (U1 , V1 ),... , (Un , Vn ) indépendants : ↝ ce cas sera dit "de deux échantillons appariés" Remarque : on ne suppose pas du tout ici Ui et Vi indépendants Exemple dans le cas de l’entreprise pharmaceutique : pour tout i ∈ J1, nK, les individus I1,i et I2,i sont associés pour l’expérience (ils sont par exemple de même âge, et classés par âge croissant : I1,1 et I2,1 sont les plus jeunes,..., I1,n et I2,n sont les plus âgés) 1.1.1 Cas où l’on ne dispose que du signe des Ui − Vi , i ∈ J1, nK ↝ on applique le Test du signe 1.1.2 Cas où l’on dispose d’une valeur chiffrée des Ui − Vi , i ∈ J1, nK (mais où l’on n’a pas forcément accès aux valeurs Ui , Vi ) ↝ on applique le Test de Wilcoxon des rangs signés 1.2 Hors-programme... 109/135 1.1.1 Cas où l’on ne dispose que du signe des Ui − Vi , i ∈ J1, nK Exemple dans le cas de l’entreprise pharmaceutique : en fait I1,i et I2,i sont un seul et même individu mais testé deux jours consécutifs : le 1er jour il reçoit le traitement T1, le second le traitement T2, et il doit ensuite dire soit "T2 a été plus efficace que T1" soit "T2 a été moins efficace que T1" ↝ on applique le Test du signe 1.1.2 Cas où l’on dispose d’une valeur chiffrée des Ui − Vi , i ∈ J1, nK (mais où l’on n’a pas forcément accès aux valeurs Ui , Vi ) Exemples dans le cas de l’entreprise pharmaceutique : ⋆ I1,i et I2,i sont un seul et même patient, qui ne donne que l’efficacité relative des deux traitements reçus (avec T2 c’est un peu mieux, vraiment mieux, incomparablement mieux qu’avec T1 etc..) ⋆ I1,i et I2,i sont deux patients distincts, mais on ne reporte que l’efficacité relative Vi − Ui d’un traitement par rapport à l’autre pour des raisons de simplicité, de confidentialité... ↝ on applique le Test de Wilcoxon des rangs signés 110/135 2 Cas où n et p peuvent être différents : 2.1 Cas U1 ,., Un i.i.d., V1 ,., Vp i.i.d., (Ui )1≤i≤n ⊥ (Vj )1≤j≤p : 2.1.1 ↝ Test de Mann-Whitney 2.1.2 Si l’on sait qu’ils proviennent de lois gaussiennes de même variance ↝ Test de Student d’égalité des moyennes 2.1.3 Si l’on sait qu’ils proviennent de lois continues à densité ↝ Test d’homogénéité de Kolmogorov-Smirnov 2.1.4 Si l’on sait qu’ils proviennent de lois discrètes ↝ Test d’homogénéité du χ2 2.2 Hors-programme... 111/135 Test du signe : un exemple de situation concrète où l’appliquer On veut tester l’efficacité d’un nouveau traitement contre les migraines. On dispose d’un échantillon de 18 personnes sujettes aux migraines à qui l’on fournit une quantité égale de pilules correspondant au nouveau traitement (A) et de pilules d’aspirine standard (B). On demande à chaque patient, lorsqu’il a utilisé l’intégralité des deux jeux de pilules, de juger quel type de pilule (A ou B) a été le plus efficace. Sur les 18 patients, 12 déclarent que le nouveau traitement (A) est plus efficace que l’ancien (B). Comment tester l’efficacité du nouveau traitement ? 112/135 Test du signe : formalisme Modèle statistique sous-jacent caché : ↝ ((U1 , V1 ),... , (Un , Vn )) vecteur aléatoire à valeurs dans R2n , ↝ de loi P1 ⊗... ⊗ Pn (càd ∀i ∈ J1, nK, (Ui , Vi ) vecteur aléatoire à valeurs dans R2 de loi Pi , et les {(Ui , Vi )}i∈J1,nK forment une famille de vecteurs aléatoires (globalement) indépendants) , ↝ tq la cond. suivante, dite condition de la médiane, est vérifiée : ∃m ∈ R, tq ∀i ∈ J1, nK, Ui −Vi est de médiane m avec P(Ui −Vi = m) = 0 (cela signifie donc que P(Ui − Vi < m) = 21 = P(Ui − Vi > m)) ↝ on veut tester H0 ∶ m = 0 contre H1± ∶ m ≠ 0 (resp. H1+ ∶ m > 0 , H1− ∶ m < 0 ) Modèle statistique observé puisque l’on a accès uniquement au signe de Ui − Vi pour i ∈ J1, nK : E = {0, 1}n , E = P({0, 1}n ), Observation X = (1U1 −V1 >0 ,... , 1Un −Vn >0 ) 113/135 Statistique du test du signe n n T (X ) ∶= ∑ Xi = ∑ 1Ui −Vi >0 i=1 i=1 ↝ sous H0 , T (X ) est de loi B(n, 1 2) (symétrique par rapport à n2 ) Test du signe de niveau α ∈]0, 1[ de H0 ∶ m = 0 contre H1± ∶ m ≠ 0 ↝ φ±α (X ) ∶= 1 Bin(n, 1 2) ∣T (X )− n2 ∣>q1− α 2 H1+ ∶ m > 0 ↝ φ+α (X ) ∶= 1 Bin(n, 1 ) T (X )>q1−α 2 H1− ∶ m < 0 ↝ φ−α (X ) ∶= 1 − n2 ; ; 1) Bin(n, 2 ; T (X ) 0, soit < 0, il n’y a pas de ui − vi = 0) ; Admettre l’hypothèse sur la médiane ; Commandes Python ↝ cf. test binomial du vidéaste 114/135 Test de Wilcoxon des rangs signés : un exemple de situation concrète où l’appliquer Une critique régulièrement émise envers l’industrie cinématographique est une préférence pour les actrices jeunes, alors que les acteurs masculins de tous âges peuvent avoir accès à des grands rôles. Afin de tester cette hypothèse, on note l’âge des premiers rôles masculin et féminin des 9 films en lice pour l’Oscar 2014 du meilleur film. Age H Age F 40 39.5 57 55 44 41.5 52 49 39.2 39.5 77 84 48 79 36 30 39 23 Dans l’ordre : American Bluff (Christian Bale & Amy Adams) , Capitaine Phillips (Tom Hanks & Catherine Keener) , Dallas Buyers Club (Matthew McConaughey & Jennifer Garner) , Gravity (George Clooney & Sandra Bullock) , Her (Joaquin Phoenix & Amy Adams) , Nebraska (Bruce Dern & June Squibb) , Philomena (Steve Coogan & Judi Dench) , Twelve Years a Slave (Chiwetel Ejiofor & Lupita Nyong’o) , Le Loup de Wall Street (Leonardo DiCaprio & Margot Robbie) 115/135 Test de Wilcoxon des rangs signés : formalisme Avertissement : tout ce qui concerne ce test est admis. Rappel de la situation : on a accès aux valeurs U1 − V1 ,... , Un − Vn et plus uniquement à leur signe Modèle statistique sous-jacent caché : ↝ ((U1 , V1 ),... , (Un , Vn )) vecteur aléatoire à valeurs dans R2n , ↝ de loi P1 ⊗... ⊗ Pn (càd ∀i ∈ J1, nK, (Ui , Vi ) vecteur aléatoire à valeurs dans R2 de loi Pi , et les {(Ui , Vi )}i∈J1,nK forment une famille de vecteurs aléatoires (globalement) indépendants) Modèle statistique observé : E = Rn , E = B(Rn ) ̃1 ⊗... ⊗ P ̃n ∈ F avec Observation X = (U1 − V1 ,... , Un − Vn ) ∼ P ̃ ̃ pour médiane commune de P1 ,... , Pn , m ∈ R ; ̃1 ⊗... ⊗ P ̃n tq ∀i ∈ J1, nK, P ̃i loi de F est l’ensemble des P ̃i de probabilité continue sur R, et ∃m ∈ R tq ∀i ∈ J1, nK, P médiane m, symétrique par rapport à m ; ̃1 ⊗... ⊗ P ̃n ∈ F0 l’ensemble des P ̃1 ⊗... ⊗ P ̃n ∈ F tel que la H0 ∶ P ̃ médiane commune des Pi est m = 0 ; 116/135 Statistique du test de Wilcoxon des rangs signés : n Wn+ (X ) ∶= ∑ R∣X ∣ (i)1Xi >0 i=1 où R∣X ∣ (i) est la v.a.r. du rang de ∣Xi ∣ parmi ∣X1 ∣,... , ∣Xn ∣ ordonnés par ordre croissant (exemples : R∣X ∣ (i) = 1 si ∣Xi ∣ = min(∣X1 ∣,... , ∣Xn ∣), R∣X ∣ (i) = n si ∣Xi ∣ = max(∣X1 ∣,... , ∣Xn ∣), etc...) Sous H0 , Wn+ (X ) suit la loi dite de Wilcoxon(n), Y1 ,. , Yn i.i.d. ∼ B( 21 )) n (qui correspond à la loi de ∑ jYj où , qui est symétrique par rapport à son espérance j=1 n(n+1) , 4 pour n ≤ 20, les quantiles de la loi Wilcoxon(n) sont tabulés ; pour n > 20, on utilise l’approximation asymptotique suivante : (nous les noterons q.W(n) ) sous H0 , T (X ) ∶= 117/135 Wn+ (X )− √ n(n+1) 4 n(n+1)(2n+1) 24 → N (0, 1) L n→+∞ Pour n ≤ 20 : Test exact de Wilcoxon des rangs signés de niveau α ∈]0, 1[, de H0 ∶ m = 0, contre H1± ∶ m ≠ 0 ̃1 ⊗... ⊗ P ̃n ∈ F± l’ensemble des P ̃1 ⊗... ⊗ P ̃n ∈ F tels que la médiane (càd H1± ∶ P 1 ̃i est ≠ 0) commune m des P φ±α (X ) = 1∣W + (X )− n(n+1) ∣>qW(n) − n(n+1) et n n(n+1) PH0 (∣Wn+ (X ) − 4 ∣ π(x ) = H1+ ∶ m > 0 (càd H1+ ≥ 4 1− α 2 4 n(n+1) ∣Wn+ (x ) − 4 ∣) ̃1 ⊗... ⊗ P ̃n ∈ F+ l’ensemble des P ̃1 ⊗... ⊗ P ̃n ∈ F tels que la médiane ∶P 1 ̃i est > 0 ↝ "les Ui auront tendance à prendre des valeurs plus grandes que les Vi , et W + (X ) commune m des P n : aura donc tendance à être grand") 1 φ+α (X ) = W + (X )>qW(n) et π(x ) = PH0 (Wn+ (X ) ≥ Wn+ (x )) ; n 1−α H1− ∶ m < 0 (càd H1− ∶ P̃1 ⊗... ⊗ P̃n ∈ F−1 l’ensemble des P̃1 ⊗... ⊗ P̃n ∈ F tel que la médiane ̃i est < 0 ↝ "les Ui auront tendance à prendre des valeurs plus petites que les Vi , et W + (X ) commune m des P n aura donc tendance à être petit") φ−α (X ) = : 1Wn+ (X )< n(n+1) −qW (n) et π(x ) = PH0 (Wn+ (X ) ≤ Wn+ (x )) ; 2 1−α pour une réalisation x = (u1 − v1 ,. , un − vn ) de l’observation X = (U1 − V1 ,. , Un − Vn ) 118/135 En pratique : Vérifier qu’il n’y a pas d’ex aequo, et comme n est petit, s’il y en a, passer au test du signe (si n était grand, on modifierait très légèrement les valeurs ex aequo de façon à ce qu’il n’y ait plus d’ex aequo, et l’on passerait au test de Wilcoxon asymptotique) ; Admettre l’hypothèse de symétrie (on peut quand même préalablement vérifier que cela n’est pas complètement absurde, graphiquement à l’aide d’un histogramme, ou numériquement à l’aide d’un "skewness empirique" (HP)) ; Commandes Python : pour u = (u1 ,... , un ) et v = (v1 ,... , vp ), scipy.stats.wilcoxon(x=u − v , alternative="two-sided") scipy.stats.wilcoxon(x=u − v , alternative="greater") scipy.stats.wilcoxon(x=u − v , alternative="less") Remarque : si l’on a accès aux valeurs ui , vi et pas uniquement aux valeurs ui − vi , on peut utiliser la commande scipy.stats.wilcoxon(x=u, y=v , alternative=...) 119/135 Pour n > 20 : Test asymptotique de Wilcoxon des rangs signés de taille α ∈]0, 1[, de H0 ∶ m = 0, contre H1± ∶ m ≠ 0 ↝ φ±;∞ α (X ) = 1∣T (X )∣>q N (0,1) ; H1+ H1− ∶m>0 ↝ ∶mqN (0,1) ; 1−α = 1T (X )qt(n+p−2) ∶ µ1 > µ2 1− α 2 (autrement dit H1+ ∶ N (µ, σ 2 )⊗n ⊗ N (µ2 , σ 2 )⊗p ∈ F+ 1 où 2 ⊗n F+ ⊗ N (µ2 , σ 2 )⊗p ; µ1 , µ2 ∈ R, µ1 > µ2 }) 1 = {N (µ1 , σ ) 1 : φ+α (X ) = T (X )>qt(n+p−2) et π(x ) = PH0 (T (X ) ≥ T (x )) ; 1−α H1− ∶ µ1 < µ2 (autrement dit H1− ∶ N (µ, σ2 )⊗n ⊗ N (µ2 , σ2 )⊗p ∈ F−1 où : et π(x ) = PH0 (T (X ) ≤ T (x )) ; 2 ⊗n F− ⊗ N (µ2 , σ 2 )⊗p ; µ1 , µ2 ∈ R, µ1 < µ2 }) 1 = {N (µ1 , σ ) φ−α (X ) = 1T (X ) 10 ou p > 10, on utilise l’approximation asymptotique suivante : sous H0 , Σn (X ) − T (X ) ∶= √ np 2 → L np(n+p+1) n,p→+∞ 12 127/135 N (0, 1) Pour n, p ≤ 10 : Test exact de Mann-Whitney de niveau α ∈]0, 1[, de H0 ∶ P1 = P2 , contre H1± ∶ z0 ≠ 0 (càd H1± ∶ P1⊗n ⊗ P2⊗p ∈ F±1 où F±1 est l’ensemble des P1⊗n ⊗ P2⊗p ∈ F tel que le shift z0 est ± non-nul) φα (X ) = 1 MW(n,p) np et − ∣Σ (X )− np ∣>q n 1− α 2 2 2 π(x ) = PH0 (∣Σn (X ) − ≥ ∣Σn (x ) − np 2 ∣) + H1 ∶ z0 > 0 (càd H1+ ∶ P1⊗n ⊗ P2⊗p ∈ F+1 où F+1 est l’ensemble des P1⊗n ⊗ P2⊗p ∈ F tq le shift z0 est >0 np 2 ∣ ↝ "les Ui auront tendance à prendre des valeurs plus grandes que les Vj , : et π(x ) = PH0 (Σn (X ) ≥ Σn (x )) ; et Σn (X ) aura donc tendance à être grand) φ+α (X ) = 1Σ H1− ∶ z0 < 0 MW(n,p) n (X )>q1−α (càd H1− ∶ P1⊗n ⊗ P2 ⊗p − ⊗n ∈ F− 1 où F1 est l’ensemble des P1 ⊗ P2 ⊗p ∈ F tq le shift z0 est 10 : Test asymptotique de Mann-Whitney de taille α ∈]0, 1[, de H0 ∶ P1 = P2 , contre H1± ∶ z0 ≠ 0 ↝ φ±;∞ α (X ) = 1∣T (X )∣>q N (0,1) ; H1+ H1− ∶ z0 > 0 ↝ ∶ z0 < 0 ↝ φ+;∞ α (X ) −;∞ φα (X ) 1− α 2 = 1T (X )>qN (0,1) ; 1−α = 1T (X )qKS(n,p). 1−α 132/135 Application pratique : pour n, p petits, les quantiles de la loi KS(n, p) sont tabulés : Commandes Python : pour u = (u1 ,... , un ) et v = (v1 ,... , vp ), scipy.stats.kstest(rvs = u, cdf = v , alternative=’two-sided’) scipy.stats.kstest(rvs = u, cdf = v , alternative=’greater’) scipy.stats.kstest(rvs = u, cdf = v , alternative=’less’) 133/135 Test d’homogénéité du χ2 Avertissement : tout ce qui concerne ce test est admis. Modèle statistique : n, p ∈ N⋆ peuvent être différents, d ≥ 2, E ∶= {w1 ,... , wd }n+p , E ∶= P(E ), où w1 ,... , wd valeurs de même type (nominales, numériques, catégorielles,...) deux à deux distinctes ; F ∶= {P1⊗n ⊗ P2⊗p ; P1 , P2 lois de probabilité sur {w1 ,... , wd }} pour k = 1, 2, la loi de probabilité Pk sur {w1 ,... , wd } est caractérisée par le d-uplet (pk;1 ,... , pk;d ) ∈ [0, 1]d , où pk;ℓ ∶= Pk ({wℓ }) (d’où ∑d pk;ℓ = 1) ℓ=1 par abus de notation, nous écrirons Pk = (pk;1 ,... , pk;d ) Observation X = (U1 ,... , Un , V1 ,... , Vp ) ∼ P1⊗n ⊗ P2⊗p ∈ F (c-à-d que l’on observe U1 ,... , Un H0 ∶ P1 = P2 H0 ∶ 134/135 P1⊗n ⊗p ⊗ P2 i.i.d. ∼ P1 , V1 ,... , Vp i.i.d. ∼ P2 tel que (U1 ,... , Un ) ⊥ ⊥ (V1 ,... , Vp ) ) (c-à-d H0 ∶ ∀ℓ ∈ J1, dK, p1;ℓ = p2;ℓ ou encore ∈ F0 ∶= {P ⊗(n+p) ; P loi de probabilité sur {w1 ,... , wd }}) ; Statistique du test du χ2 : n d ( ∑ 1Ui =wℓ − n ̂ pℓ ) ℓ=1 n̂ pℓ T (X ) = ∑ ( où ̂ pℓ ∶= 1 n+p p 2 i=1 + ( ∑ 1Vj =wℓ − p ̂ pℓ ) 2 j=1 p̂ pℓ ) p n ( ∑ 1Ui =wℓ + ∑ 1Vj =wℓ ) i=1 j=1 ↝ sous H0 , T (X ) → χ2 (d − 1) ; L n→+∞ Test d’homogénéité du χ2 asymptotique de taille α ∈]0, 1[ de H0 ∶ P1 = P2 contre H1 ∶ P1 ≠ P2 (càd contre H1 ∶ ∃ℓ ∈ J1, dK, p1;ℓ ≠ p2;ℓ ) φ∞ α (X ) ∶= 1 χ2 (d−1) T (X )>q1−α 135/135