Aide-mémoire pour l'analyse de variance (session POL-1803)
Document Details
Uploaded by EnthusiasticPeony8104
Université de Montréal
Tags
Summary
Ce document présente un aide-mémoire sur l'analyse de variance (ANOVA) , un concept essentiel en statistique. Il explique comment déterminer si les moyennes de plusieurs groupes sont statistiquement différentes. Il aborde les concepts de variance intergroupe et intragroupe, et introduit le rôle du test F et de la table ANOVA.
Full Transcript
Séance 8 : Analyse de variance Pour déterminer si les moyennes de deux groupes sont significativement différentes, on fait un *test* *t.* Pour déterminer si les moyennes de plus de deux groupes sont significativement différentes, on fait une *analyse de variance.* Test T et analyse de variance :...
Séance 8 : Analyse de variance Pour déterminer si les moyennes de deux groupes sont significativement différentes, on fait un *test* *t.* Pour déterminer si les moyennes de plus de deux groupes sont significativement différentes, on fait une *analyse de variance.* Test T et analyse de variance : - Deux moyens d'évaluer la signification statistique de différence(s) entre moyennes d'échantillons. - Est-ce que la ou les différences existe(nt) aussi dans la population? - La ou les différences est(sont)-elle(s) assez improbable(s) compte tenu de l'hypothèse nulle? ***Multiples tests t ?*** Ex.: 3 groupes, 3 comparaisons (A-B, B-C, A-C), 3 tests *t* - Il y a rapidement trop de comparaisons à faire. - Il y a cumul des risques **d'erreur de type 1** **[Analyse de variance (ANOVA) :]** Un seul test qui évalue la signification statistique de différences entre plusieurs moyennes d'échantillons. Le risque d'erreur de type 1 est toujours de 5%. = Évalue la probabilité que toutes les moyennes de groupes de l'échantillon proviennent d'une population où les moyennes de groupes sont identiques. **Quelle variance ?**\ Deux catégories principales: 1\) la variance entre les groupes (variance intergroupe) 2\) la variance à l'intérieur des groupes (variance intra-groupe) La variance intergroupe : Mesure de la variance entre les moyennes de groupes et entre celles-ci et la moyenne totale. La variance intragroupe : Mesure de la variance entre les observations et leur moyenne de groupe. Le Ratio F : - Formule: [Variance intergroupe ] Variance intra-groupe où \... ![](media/image2.png) Normalement, il faut ensuite prendre le F, le nombre de degrés de liberté du numérateur, le nombre de degrés de liberté du dénominateur et aller consulter une table pour savoir si le F est plus grand qu'une valeur donnée qui varie selon les deux degrés de liberté et le seuil souhaité. Malheureusement, il n'y a pas de valeur raccourci que l'on peut retenir pour se simplifier la vie. Toutefois \... **[La table ANOVA]** : La signification est-elle **inférieure** à **0,05**? Si la réponse est **oui= L**a probabilité de trouver un tel lien en assumant que les moyennes sont identiques dans la population est suffisamment petite. On peut rejeter l'hypothèse nulle. On peut conclure que les moyennes de l'échantillon sont significativement différentes. On peut conclure que les moyennes dans la pop. sont probablement différentes (95%). On peut conclure qu'il y a probablement une relation entre les deux variables dans la population (certain à 95%). Si la réponse est **non:** La probabilité de trouver un tel lien en assumant que les moyennes sont identiques dans la population n'est pas suffisamment petite. On ne peut pas rejeter l'hypothèse nulle. On ne peut pas conclure que les moyennes de l'échantillon sont significativement différentes. On ne peut pas conclure que les moyennes dans la pop. sont probablement différentes. On ne peut pas conclure qu'il y a probablement une relation entre les deux variables dans la population (pas certain à 95%). Avantages : une seule estimation / pas de cumul des erreurs de type 1 Inconvénients : manque de spécificité analytique / Restriction des postulats ATTENTION : Il ne faut jamais confondre association statistique et relation causale. Le fait de trouver que deux variables varient ensemble n'implique pas automatiquement que l'une est la cause de l'autre. Patientez encore. Pour le moment limiter votre discours à l'usage du terme association statistique. **Cours 9 :** L'analyse bivariée : variables d'intervalles /ratio On se demande si une variable explique l'autre 3 outils pour voir la relation : 1. **Le diagramme de dispersion** = Outil pour représenter graphiquement la relation entre deux variables intervalles / ratio. Il permet de caractériser la direction, la force et la forme de la relation (3 dimensions de l'asso stat). Ce n'est pas un calcul. EX : relation entre urbanisation et taux de fertilité Chaque point représente un cas, une observation (ici un pays). Chacun nous dit les scores sur les deux variables. La façon dont les points sont indiqués ds l'espace indiquent les 3 dimensions. ![](media/image7.png)**[Direction]** : dépend de comment le nuage de points est penché = les variables bougent ds la même direction **[Force de la relation]** : est-ce que la relation est nulle, faible, moyenne, forte, très forte ou parfaite. Ca révèle ça par le niveau de concentration du nuage de point. Plus les points sont collés plus la relation est forte. Plus les point sont diffus plus la relation est faible. ![](media/image9.png) ![](media/image11.png) **[Forme de la relation]** : linéaire ou non-linéaire ![](media/image13.png) 2. **Coefficient de corrélation (r) IL NE FAUT PAS CONNAITRE LA FORMULE POUR L'EXAMEN** = outil pour synthétiser en une seule valeur la relation entre deux variables intervalles/ratio. Cela permet de caractériser la direction et la force de la relation, mais pas la forme de la relation. Il appartient aux statistiques inférentielles car il peut seulement résumer la relation ds l'échantillon. ***Formule*** : Dans cette formule, chaque lettre a une signification spécifique, car elle se réfère à la corrélation entre deux variables x et y. Voici ce que représentent les symboles : r : le coefficient de corrélation, qui mesure la force et la direction de la relation linéaire entre les variables x et y. Σ: symbole de somme, qui signifie que l\'on additionne les valeurs pour toutes les observations. Zx : la valeur centrée et réduite de la variable x, ce qui signifie qu\'on a normalisé x pour qu\'elle ait une moyenne de 0 et un écart-type de 1. Zy : la valeur centrée et réduite de la variable y, normalisée de la même manière que Zx. N: le nombre total d\'observations ou d\'échantillons. μx et μy : les moyennes des variables x et y, respectivement. σx et σy : les écarts-types des variables x et y, respectivement. En d\'autres termes : En divisant la somme des produits Zx ⋅ Zy par N, on obtient le coefficient de corrélation r, qui se situe entre -1 et 1. ![](media/image15.png)**[Information du coef de corrélation]** : fourni les mêmes infos que le Gamma - L'échelle s'étend de -1 à +1. - 0 signifie une association nulle. - Signe négatif signifie une ass. négative. - -1 signifie une ass. négative parfaite. Signe positif signifie une ass. positive. - +1 signifie une ass. positive parfaite. 1. **Test F ** [Si le F est supérieur à 3,84 :] - le coefficient est significatif - on peut rejeter l'hypothèse nulle - on peut conclure qu'une relation existe probablement dans la population (95%) [Si le F est inférieur à 3,84] : - le coefficient n'est pas significatif - on ne peut pas rejeter l'hypothèse nulle - on ne peut pas conclure qu'une relation existe probablement dans la population Critère : Normalement, pour que le coefficient de corrélation soit statistiquement significatif, la valeur du F doit dépasser le seuil de la table F. [Si la signification est inférieure à 0,05] : - le coefficient est significatif - on peut rejeter l'hypothèse nulle - on peut conclure qu'une relation existe probablement dans la population (95%) [Si la signification est supérieure à 0,05 :] - le coefficient n'est pas significatif - on ne peut pas rejeter l'hypothèse nulle - on ne peut pas conclure qu'une relation existe probablement dans la population 3. **Equation de régression linéaire bivariée** = Outil pour résumer, avec plus de détails, la relation entre deux variables intervalles / ratio. Il permet de prédire (estimer) des valeurs inconnues de la variable dépendante. Technique stat la plus répandue ds le monde, pas que en polq. ***Formule*** : Y = a + bX Y = Variable dépendante Où : a = Intersection ou [constante] b = Pente ou [coefficient de régression] X = Variable indépendante Y = **a** + bX *[Constante]*: Point sur l'axe des Y où passe la droite de régression. Valeur de la variable dépendante lorsque la variable indépendante a la valeur de 0. A L'EXAM ILS FOURNIRONT LE TABLEAU AVEC TOTU DE DEJA CALCULE Y = a + **b**X *[coefficient de régression:]* Le signe du coefficient reflète la direction de la relation. La valeur du coefficient indique l'effet sur la variable dépendante d'une hausse d'une unité sur la variable indépendante. 4. **Statistique t pour le coefficient de régression **(CALCUL EXAM) = Mesure de la signification statistique du coefficient de régression. [Critère]: Pour que le coefficient de régression soit statistiquement significatif à 95%, la valeur absolue du *t* doit dépasser 1,96. Si la valeur abs. du *t* est supér. à 1,96 : - le coefficient est significatif - on peut rejeter l'hypothèse nulle - on peut conclure qu'une relation existe probablement dans la population (95%) Si la valeur abs. du *t* est infér. à 1,96 : - le coefficient n'est pas significatif - on ne peut pas rejeter l'hypothèse nulle - on ne peut pas conclure qu'une relation existe probablement dans la population 5. **Coefficient de détermination** = Mesure de la proportion de variation chez la variable dépendante qui est expliquée par l'équation de régression. ***Formule***: r^2^ où r = Coefficient de corrélation Attention : Il ne faut pas confondre les termes association statistique et relation causale. Le fait de trouver que deux variables varient ensemble n'implique pas automatiquement que l'une est la cause de l'autre EXERCICE TYPE EXAMEN FINAL : Satisfaction et vote pour gouv *Les résultats suivants présentent une analyse de régression linéaire bivariée. Quel pourcentage des votes le gouvernement sortant devrait-il s'attendre à obtenir si 38% des électeurs québécois sont satisfaits de sa performance lors de la prochaine élection? Effectuez une estimation par intervalle à 95% de certitude sur la base de l'équation de régression et interprétez les résultats.* Pour répondre à ce pb on utilise l'estimation à pt de l'équation de régression linéaire bivariée. On va remplacer a (constante) et b (coef de régression) par les valeurs du pb. En premier, il faut compléter l'équation en remplaçant a par la valeur de la constante, ici 11,02 et la valeur de b par le coefficient de régression, ici 0,639 (0,64). Y = 11,02 + 0,64X Il faut maintenant savoir quelle valeur du pourcentage de gens on veut insérer. Ici, notre valeur de pourcentage est de 38%. On remplace donc X par 38 du problème. Attention, on ne le convertit pas en proportions.\ \ Y = 11,03 + (0,64 \* 38) = 11,02 + 24,3 = 35,3 Quand la satisfaction est à 38%, le gouvernement devrait obtenir 35,3% des votes. ATTENTION ! le calcul n'est pas fini. Nous voulons une estimation par intervalle donc un éventail de valeurs autour de l'estimation ponctuelle. (À 95%) : Estimation ± 1,96 \* Erreur standard de l'estimation L'erreur standard de l'estimation est l'équivalent de l'écart-type de l'équation de régression. L'erreur standard de l'estimation est calculée par l'ordinateur. ![](media/image19.png) Résolution du dernier bout du calcul : intervalle de confiance d'une estimation X= 38 et Y= 35,3 Estimation ± 1,96 \* Erreur standard de l'estimation Donc 35,3 ± 1,96 \* 6,09 = 35,3 ± 11,9 = **23,4 \< Y \< 47,2** Interpréter : Sur la base de résultats observés ds 14 élections qc, on utilise une équation de régression linéaire bivariée pour estimer le pourcentage de vote qu'obtiendrait un gouvernement sortant avec un taux de satisfaction de 38%. Il faut ajouter un intervalle de confiance pour prédire l'estimation de l'intervalle des chances.