STATS RÉVISION FINALE (40%).docx

Full Transcript

STATS RÉVISION FINALE (40%) Chap_10: Le test t : -Test t: Fourni des inférences pour des échantillons de petite taille. (moins de 30 observations) Utiliser pr comparer 2 petit groupes Aussi utiliser pr déterminer si un échantillon unique n’appartient pas à une population connue ou si le même groupe...

STATS RÉVISION FINALE (40%) Chap_10: Le test t : -Test t: Fourni des inférences pour des échantillons de petite taille. (moins de 30 observations) Utiliser pr comparer 2 petit groupes Aussi utiliser pr déterminer si un échantillon unique n’appartient pas à une population connue ou si le même groupe d’informateurs produit des résultats différents sur 2 mesures différentes et/ou si le même groupe d’informateurs fournit une réponse moyenne différente sur la même variable qnd celle-ci est administrée à deux moments différents. Formule : t= $\frac{M - \mu}{S \slash \sqrt{N}}$ (M-µ) : La différence entre la moyenne de chaque échantillon et la moyenne de la population (s / √N) : L’erreur type de la moyenne La statistique t décrit ;a distance qui existe entre la moyenne d’un échantillon et la moyenne de la population (M-µ) par rapport à la différence typique (l’erreur type de la moyenne). Qnd le nbr d’observation est petit, la distribution t s’éloigne de la distribution normale Z. Qnd les échantillons sont de grande taille, la distribution t est plus similaire à la distribution Z, et avec un nbr infini d’observations, les distributions Z et t sont parfaitement identiques. -L’intervalle de confiance pour les petits échantillons : Formule : µ +- tcritique x sM Les valeurs tcritique dépendent de la taille de l’échantillon. Se trouvent dns le tableau de valeurs critiques de t dns l’annexe. L’erreur type de la moyenne (SM = s/ √N) s : l’écart-type de l’échantillon -Le tableau des valeurs critiques de t : Dns l’Annexe A.2 Le nbr de degrés de liberté (dl) pr chaque échantillon est donné par N – 1 Ex : si on a 6 observations dns un échant., il contient donc 5 dl. Si vt réduire le risque d’une erreur alpha; choisir un seuil alpha très petit (p<0,01) plutôt qu’un seuil plus grand (p<0,05). La valeur critique de t est la valeur dns le tableau à l’intersection de la rangée qui correspond au dl et de la colonne qui correspond au seuil alpha désiré. La distribution des moyennes des petits échantillons s’appartenant à une distribution t n’est pas la même que celle produite par des grands échantillons, qui elle, est la distribution Z. Utilisation de la statistique t dns 3 applications distinctes. Le test t pr un seul échantillon : Détermine si un petit échantillon est différent de la moyenne hypothétique de la population qnd la variance de la population est inconnue. Ex : Une nouvelle marque de voiture a-t-elle le degré de consommation de carburant que prétend le manufacturier? Le test t pr 2 échantillons indépendants : Détermine si 2 petits échantillons ont des moyennes différentes… s’ils appartiennent à 2 populations différentes. Ex : Une technique chirurgicale est-elle plus efficace qu’une autre? Le test t pr 2 échantillons non indépendants, ou le test t pr les données jumelées : Détermine si le même petit échantillon diffère sur deux variables. Utile qnd vt évaluer le changement. Ex : La compréhension de la statistique s’est-elle améliorée à la suite d’un premier examen? 1- Le test t pr un seul échantillon : Détermine si un petit échantillon est différent de la moyenne hypothétique de la population qnd la variance de la population est inconnue. Consiste à établir un intervalle de confiance autour de la moyenne de la population. Si la moyenne de l’échantillon tombe à l’extérieur de l’intervalle, l’échantillon n’appartient pas à cette population. Rejet de H0 si : M n’est pas inclus dns µ+- tcritique x sM 2- Le test t pr 2 échantillons indépendants : Détermine si 2 petits échantillons ont des moyennes différentes… s’ils appartiennent à 2 populations différentes. Qnd les observations qui appartiennent à un échantillon ne peuvent pas appartenir à un autre, on dit que les échantillons sont indépendants. Si la valeur du tobservé est égale ou plus grande que la valeur du tcritique, nous concluons que les deux groupes n’appartiennent pas à la même population, qu’ils sont statistiquement différents. (rejet de H0) Calcul de la statistique tobservé pr les échantillons indépendants : Step 1 : trouver la variance combiné (sc2). sc2 : la variance combinée des 2 groupes : Formule : $S_{c}^{2} = \frac{\left( N_{1} - 1 \right)S_{1}^{2} + \left( N_{2} - 1 \right)S_{2}^{2}}{\left( N_{1} - 1 \right) + \left( N_{2} - 1 \right)}$ S12 et s22 : les variances de chaque échantillon N1 et N2 : le nbr d’observations dns chaque échantillon N1 – 1 et N2 -1 est nécessaire qnd les 2 échantillons ne sont pas de la même taille (N). Step 2 : Trouver l’erreur type de la différence : Formule : sM1 – M2 = $s_{c}\sqrt{\frac{1}{N_{1}} + \frac{1}{N_{2}}}$ SM1 – M2 : l’erreur type qui résulte du calcul de la différence entre 2 moyennes. (L’erreur type de la différence) Sc : l’écart-type de la variance combiné Sc2, obtenu en faisant la racine carrée Cette formule est utilisée pr calculer une statistique t qui, elle, sera en mesure de tester la différence entre les 2 groupes indépendants. Step 3 : Trouver le tobservé : Formule : tobservé= $\frac{M_{1} - M_{2}}{s_{M_{1} - M_{2}}}$ Step 4 : Tirer conclusion à partir du tableau : Nous avons le tobservé (step 3) Trouvons la valeur tcritique : à l’intersection de la colonne désirée et le nbr de degrés de liberté (dl) N1 + N2 -2= dl. Si la valeur du tobservé est égale ou plus grande que la valeur du tcritique, nous concluons que les deux groupes n’appartiennent pas à la même population, qu’ils sont statistiquement différents. (rejet de H0) Qnd nous comparons le tcritique au tobservé, nous ignorons le signe de ce dernier. Hypothèse Unilatérale ou hypothèse bilatérale : (p.311) Hypothèse unilatérale : Une hypothèse directionnelle : vt démontrer que la différence sera dns une seule direction. Nous allons tester la statistique tobservé dns la partie du tableau donnant les valeurs tcritiques. Hypothèse bilatérale : Une hypothèse non directionnelle : on cherche à démontrer l’existence d’une différence, peu importe sa direction. Ainsi, n’importe quelle différence significative pt appuyer l’hypothèse. La valeur critique de t pour les hypothèses unilatérale et bilatérale : Le tcritique augmente qnd on passe d’un seuil de 0,05 à un seuil plus petit (0,01 ou 0,001). Qnd on rejete H0 avec un certain seuil (disons seuil de 0,05), vt dire que moins de 5% des différences entre les échantillons extraits aléatoirement d’une même population auront une différence de moyenne aussi forte que le tobservé. L’utilisation du tableau des valeurs critiques pour les tests unilatérales et bilatérales : Selon la forme de l’hypothèse unilatérale ou bilatérale, nous allons utiliser une partie différente du tableau des valeurs critiques de t. Le seuil alpha : Le seuil alpha d’un test t : il s’agit du risque de tirer une conclusion fausse (erreur de type I) en rejetant l’hypothèse nulle. 3- Le test t pour les données pairées (Le test t pr 2 échantillons non indépendants, ou le test t pr les données jumelées) : Détermine si le même petit échantillon diffère sur deux variables. Utile qnd vt évaluer le changement. On prend des mesures avant et après un événement, et on évalue si les moyennes, avant et après, sont les mêmes statistiquement. Doit être les mêmes sujets qui soient mesurés deux fois. Par conséquent; le nbr d’observations pr la mesure pré-intervention est égal au nbr d’observation de la mesure post-intervention. Donc : N1 = N2. Étapes : Pr chaque personne, il y aura une performance pré-intervention (Xi) et après l’intervention (Yi). Calcule la différence entre les deux informations pr chaque pers : Di=(Xi – Yi). Calcule la moyenne de cette valeur D : MD. Si cette valeur est = 0 : pt pas conclure que le traitement a eu effet. Si la moyenne des différences D n’est pas = 0 : pt conclure que le traitement a eu effet, qu’il existe une différence avant et après. Jeux d’hypothèses : H : ∆ ≠ 0 H0 : ∆ = 0 ∆ : la vraie différence en ce qui a trait à la population entière. L’hypothèse nulle postule que la différence moyenne entre les valeurs avant et après sera égale à 0. Cette hypothèse pt être former de manière directionnelle ou non directionnelle. Calculer son écart-type : sD À partir de l’écart-type sD, calcul l’erreur type sMD : sMD = sD / √N Construire l’intervalle de confiance : +- sMD x t(dl). Si la différence moyenne observée (MD) est à l’extérieur de l’intervalle de confiance : rejet de H0. Établir la statistique tobservé : tobservé = MD / sMD MD : différence moyenne entre les observations avant-après SMD : l’erreur type de cette différence Comparer le tobservé au tcritique pr conclure. (Selon si c une hypothèse unilatérale ou bilatérale, il faudra faire appel à la bonne colonne du tableau des valeurs critiques pr repérer le tcritique.) Les degrés de liberté dans le test t pour échantillons pairés : Puisque nous avons une seule moyenne et q’un seul écart-type, nous ne perdons qu’un seul degré de liberté. N – 1. -Sommaire des étapes pour réaliser un test t : Poser les hypothèses; décider si elles sont directionnelles on non directionnelles. Choisir le seuil de confiance alpha. Décider de la forme du test (un groupe, deux groupes, échantillons pairés). Calculer la statistique tobservé. Calculer les degrés de liberté et trouver t(dl) (le tcritique) dns le tableau des valeurs critiques de t (Annexe) en fonction des dl, du seuil alpha et selon que le test est unilatéral ou bilatéral. Conclure. Si le tobservé est égal ou plus grand que la valeur critique t(dl), conclure que la différence est statistiquement significative au niveau alpha choisi et rejeter H0. Si le tobservé est plus petit que la valeur critique t(dl), conclure que la différence n’est pas statistiquement significative au niveau alpha choisi et ne pas rejeter H0. Chap 11 : Analyse de variance à un facteur (ANOVA) : -ANOVA : Un test statistique qui généralise le test t. Permet l’analyse des différences entre deux groupes ou plus de toute taille. Compare plusieurs groupes, pas slmt deux. Pas de limites techniques au nbr de groupes pouvant être simultanément comparés par l’ANOVA. Il s’agit du tableau des valeurs critiques de la statistique F. Qnd la différence entre les groupes est statistiquement significative : au moins un des groupes provient d’une population différente des autres. Permet de déterminer si les groupes proviennent ou non de la même pop. Pt pas indiquer où ces différences se situent. Pt pas identifier le ou les groupes qui sont différents. Pt pas identifier si la différence est grande ou petite. -Pourquoi l’ANOVA et pas le test t?: L’utilisation d’une multitude de test t cause le cumul des risques de l’erreur de type I qui, lui, produira erreur d’inférence. (mènera à fausse conclusion) Le risque de conclure à tort qu’au moins une des différences est statistiquement significative augmente qnd le nbr de comparaisons augmente. Qnd plusieurs comparaisons sont requises, faut utiliser autre procédure que le test t. L’alternative : L’ANOVA (l’analyse de variance). -La variable indépendante et la variable dépendante pour l’ANOVA : L’ANOVA est une série de procédures statistiques qui comparent la moyenne de la variable dépendante pr chaque « niveau » de la variable indépendante. La variable indépendante : la caractéristique qui distingue les groupes. Les niveaux : définissent chacun des groupes qui vont être comparés. Pas de limite au nbr de niveaux d’une var. indépendante qui peuvent être comparés par ANOVA. La variable dépendante : la variable qui est mesurée. Ex : (p.334-335) -L’ANOVA : Les différences intergroupes et intragroupes : Différence intergroupe : variabilité entre les groupes, variabilité qu’il faudra quantifier (les moyennes des groupes ne sont pas numériquement identiques). En examinant la différence intergroupe isolément, ne pt pas dire si la présence entre les groupes indique nécessairement qu’il existe plus d’une pop. (rejet de H0). Différence intragroupe : compare la différence entre les groupes à un étalon (un standard). Un étalon possible; la différence moyenne qui existe entre les observations du même groupe. En additionnant les différences intragroupes, on obtient la totalité de la différence à l’intérieur des groupes. La statistique F : le rapport entre la différence intergroupe et la différence intragroupe. Qnd la différence intergroupe est plus grande que la différence intragroupe, nous rejetons H0 et concluons que la différence est statistiquement significative. Qnd le rapport F est proche de 1,0; il existe autant de différence entre les groupes qu’il y en a à l’intérieur des groupes. Qnd le rapport F est plus grand que 1; la différence entre les groupes est plus grande que la différence intragroupe. L’ANOVA consiste à faire une différence entre deux types de différences; (les différences intergroupe et intragroupes… variance intergroupe et variance intragroupe.) L’ANOVA comparera la variance intergroupe à la variance intragroupe. Calcule de la statistique F : F= différence intergroupe / différence intragroupe Formule pour le calcul de la statistique F : F= $\frac{n_{j}\left( M_{j} - M. \right)}{k - 1} \slash \frac{\left( x_{\text{ij}} - M_{j} \right)^{2}}{N - K}$ 1) M. : La moyenne globale : Calcul : M.= Mj / K M. : la grande moyenne Mj : la moyenne obtenue dns chaque groupe j K : le nbr de groupes Cette grande moyenne est la meilleure estimation qu’on a de µ sous l’hypothèse nulle. Utile pr le calcul de la différence moyenne entre les groupes; la différence intergroupe. Se calcule par la somme des moyennes pr chaque groupe divisé par le nbr de groupes. 2.1) La somme des carrés intergroupe (SCinter) : Calcul : SCinter= nj (Mj – M.)2 Mj: moyenne d’observations dns chaque groupe nj : le nombre d’observations dns chaque groupe M. : la grande moyenne Chaque différence obtenue entre la moyenne de chaque groupe et la grande moyenne est multipliée par le nbr d’observations dns le groupe (nj). De plus, on met chaque différence au carré pour ne pas obtenir zéro suite au calcul de la somme des écarts. Qnd cette statistique (SCinter) est proche de 0; la différence entre les groupes est proche de 0. Qnd cette statistique est grande; les groupes proviennent de pop. différentes. Pt pas utiliser SCinter directe, il faudra la diviser par le nbr de degré de liberté entre les groupes : dlinter= K-1 K : le nbr de groupes Ceci deviendra CMinter faudra la diviser par le nbr de degré de liberté entre les groupes, car; plus le nbr de groupes est grand, plus la somme des carrés intergroupes est grande. 2.2) Le carré moyen (CM) : carré moyen intergroupe (CMinter) : Calcul : CMinter= SCinter/ dlinter = nj (Mj – M.)2/ K-1 3.1) Somme des carrés intragroupe (SCintra) : Calcul : SCintra= (Xij – Mj)2 Xij : le score du sujet i dns le groupe j Mj : la moyenne pr ce groupe Faudra diviser SCintra par le nbr de degré de liberté, qui lui devra prendre en considération le nbr total d’observations (N) aussi bien que le nbr de groupes (K). Donc : N-K N : nbr total d’observations K : nbr de groupes 3.2) Carré moyen intragroupe (CMintra) : Calcul : CMintra= (Xij – Mj)2 / N – K DONC, CALCUL pour F sera le : F= CMinter / CMintra Ex : si F=8,00 : la différence moyenne entre les groupes est 8 fois plus grande que la différence moyenne à l’intérieur des groupes. …ceci est possible même qnd tous les groupes viennent de la même pop. … Les composantes de la statistique F : La variance intergroupe : Différence moyenne entre les moyennes de chaque groupe et la moyenne des moyennes (exige le calcul de la moyenne de tous les groupes, appelée la grande moyenne ou la moyenne globale (M.). La variance intragroupe : Différence moyenne entre chaque observation et la moyenne de son propre groupe. -Tableau de valeur critique de F pour faire une inférence : Fcritique; Tableau des valeurs critiques de F (Annexe, A3). V1 = K – 1; sera le nbr de degré de liberté (dl) intergroupes V2 = N – K; sera le nbr de degré de liberté (dl) intragroupes Fcritique; se trouve à l’intersection de la colonne v1 = K – 1 et la rangée v2 = N – K. Compare le F qui à été calculé à partir des données dns le tableau. Si notre F est inférieur à celui trouver dns le tableau; il n’y a pas de différence entre les groupes, la différence entre les groupes n’est pas statistiquement significative. Si le F calculé à partir des données est égal ou plus grand que Fcritique; la différence entre les groupes est statistiquement significative, au niveau alpha choisi. Au moins un groupe diffère des autres. -Sommaire du test de l’hypothèse pour K groupes : (p.348) Poser les hypothèses : H0 :… et H :… Choisir le seuil de signification alpha : … Spécifier la règle décisionnelle pour choisir entre H et H0 : Rejet de H0 si Fobservé ≥ Fcritique. (Fcritique se trouve dns le tableau). Faire les calculs et conclure : … -Les influences sur la probabilité de rejeter H0 : Pt réduire le risque d’une erreur de type I en réduisant le seuil de signification. Un même résultat (Fobservé) pourrait être statistiquement significatif ou non, en fonction de plusieurs facteurs : La taille du F trouvé : Plus la différence entre les moyennes des groupes est grande, plus la statistique F est grande et plus le rejet de H0 est probable. Le nbr d’observations : Plus le nbr d’observations (N) est grand, plus grande est la probabilité que le Fobservé soit plus grand que le Fcritique, et plus probable est le rejet de H0. Le seuil alpha choisi pr tester l’hypothèse Plus le niveau alpha choisi est grand (p< 0,05 plutôt que p< 0,01), plus grande est la probabilité que le Fobservé soit égal ou plus grand que le Fcritique et qu’il y ait rejet de H0. L’homogénéité des observations Plus la différence à l’intérieur des groupes est petite, plus il est probable que les groupes ne proviennent pas de la même population (rejet de H0). Plus il y a d’homogénéité dns les observations à l’intérieur des groupes, plus petite est la qté CMintra. Par conséquent, le rapport CMinter/CMintra sera plus grand, résultant en une statistique Fobservé de taille supérieure. Plus grande est le Fobservé, plus grande sera la probabilité qu’il soit égal ou supérieur au Fcritique et donc, plus probable qu’il mène à une conclusion du rejet de H0 (signification statistique). -Le choix de seuil alpha : L’erreur de type I versus l’erreur de type II : Risque d’erreur de type I est plus grand qnd on choisit un seuil de signification plus grand (p<0,05 plutôt que p< 0,01). Risque d’erreur de type II est plus grand qnd on choisit un seuil de signification plus petit (p<0,01 plutôt que p<0,05). -Comment réduire le risque d’erreur de type I et de type II ? : Si vt réduire le risque d’une erreur de type I : Réduire le seuil de signification alpha (p < 0,001 plutôt que p < 0,05). Utiliser moins de sujets (d’observations) plutôt que plus. Si vt réduire le risque d’une erreur de type II : Augmenter le seuil de signification alpha (p < 0,05 plutôt que p < 0,001). Augmenter le nbr d’observations. -Test de comparaisons multiples ou test a posteriori : Permet de déterminer lequel ou lesquels des groupes se différencient des autres. Interprétable et exécuté slmt si l’ANOVA indique une différence statistiquement significative. (Qnd l’ANOVA produit un F non statistiquement significatif, tous les groupes proviennent de la même pop.). -Test de comparaisons multiples de Scheffé : Permet la comparaison entre deux groupes ou entre deux ensembles de groupes. Qu’il y ait ou non le même nbr d’observations dns les divers groupes, on pt l’utiliser. Les infos requise pr ce test sont disponible à partir du tableau des sources de variance de l’ANOVA. 5 étapes du calcul du test de comparaison multiple de Scheffé : Exécute une ANOVA qui compare tous les groupes. Le test de Scheffé sera appliqué slmt si on obtien un F statistiquement significatif : il s’agit mtn de déterminer où se trouvent les différences existantes. Identifie la comparaison désirée (ex : groupe 1 vs groupe 2). Calcule pr ces comparaisons la statistique Cobservé avec la formule. Formule : Cobservé= $\frac{M_{1} - M_{2}}{\sqrt{\text{CMintra}\left( \frac{1}{n}, + \frac{1}{n_{2}} \right)}}$ M1 et M2 : les moyennes des groupes que l’ont vt comparer CMintra : le carré moyen intragroupe, puisé directement dns le tableau des sources de variance de l’ANOVA n1 et n2 : le nbr d’observations associées à chaque groupe comparé. Calcule la valeur critique Ccritique avec la formule. Formule : Ccritique= $\sqrt{\left( k - 1 \right)\text{Fcritique}}$ Fcritique : celui qu’on retrouve dns le tableau de la distribution des valeurs de F pr le nbr de degrés de liberté (dl) provenant de l’analyse de variance initiale. Compare la statistique Cobservé à la valeur Ccritique. Qnd la statistique Cobservé est égale ou plus grande que la valeur Ccritique; différence statistique. -La taille de l’effet et la statistique êta au carré (ⴄ2) : Sert à indiquer si la différence entre les groupes est grande ou petite. Il s’agit du rapport de la différence entre les groupes (SCinter) et la différence totale (SCtotal) 1) Formule : SCtotal= SCinter + SCintra 2) Formule : ⴄ2= SCinter/ SCtotal Valeurs variant entre 0 et 1,0. Souvent exprimer en pourcentage, en multipliant par 100. Ex : si on obtient : ⴄ2=0,25 ;25 % de la différence totale observée sur la variable dépendante est expliquée par la var.indépendante. Plus grande est la statistique êta au carré, plus grande est la différence entre les groupes. Qnd la taille de l’effet est égale à 1,0 (ou 100%); toutes les différences qui existent sont attribuables à la différence entre les groupes. Formule simplifiée : ⴄ2= SCinter/ SCinter + SCintra Chap 12 : L’Analyse de variance factorielle : -L’ANOVA factorielle : Procédure statistique qui généralise l’ANOVA à un facteur. Permet d’examiner l’impact simple et conjoint sur une variable dépendante de plusieurs variables indépendantes. L’ANOVA factorielle est moins limité que l’ANOVA à un facteur. Permet de vérifier dns la même analyse, l’impact de plusieurs variables indépendantes sur l’unique variable dépendante et; Permet d’évaluer l’impact conjoint de ces variables indépendantes. Pour ce faire : L’interaction; L’interaction évalue l’influence conjointe de deux variables indépendantes (dns le cas de l’ANOVA factorielle à 2 facteurs) sur la variable dépendante. Importance de l’étude des interactions : l’ANOVA factorielle (à 2 facteurs) est utilisée qnd on soupçonne que l’effet d’une variable indépendante sur la variable dépendante n’est pas le même pr différentes valeurs d’une deuxième variable indépendante. L’ANOVA factorielle permet d’étudier simultanément les effets uniques et les effets conjoints de plusieurs variables indépendantes sur une seule variable dépendante. L’ANOVA factorielle sert à analyser l’impact de chacune de ces variables ainsi que leurs effets conjoints (l’interaction) sur… . Le terme facteur (dns factorielle) est utilisé dns le même sens que les termes traitement ou variable indépendante. (comme pr l’ANOVA à un facteur) Le facteur est défini par différents niveaux, chacun composé d’un groupe différent. L’effet principal : qnd nous interprétons la différence entre les niveaux de chaque variable indépendante. L’effet d’interaction (interaction): Qnd on analyse l’effet conjoint des variables. Pr l’ANOVA factorielle à deux facteurs, il y aura 3 calculs et 3 interprétations : L’effet principal A : la différence entre les niveaux de la première variable indépendante. L’effet principal B : analyse la différence entre les niveaux de la deuxième variable indépendante. L’effet d’interaction A x B : analyse la différence entre chacun des groupes définis par les 2 variables indépendantes prises simultanément. L’ANOVA factorielle produit une statistique Fobservé pr chaque facteur ainsi qu’une autre pr l’interaction (facteur A, facteur B, interaction AxB). Chacun des résultats statistiques se doit d’être étudier et interprété, mais l’ordre dns lequel cela se fait est important. Ex de l’organisation d’une ANOVA factorielle : p.373-374 -Le fonctionnement de L’ANOVA factorielle : Compare la différence moyenne entre les groupes (les carrés moyens intergroupes CMinter) avec la différence moyenne entre les observations (les carrés moyens intragroupes CMintra). Une statistique Fobservé est produite pr chaque variable indépendante ainsi que pr l’interaction. Au total, l’ANOVA factorielle produira donc 3 statistiques F. En comparant chacune de ces statistiques F avec les valeurs critiques de la statistique F (Annexe, A3), pt conclure si l’hypothèse nulle (H0) associée à chacune des 3 comparaisons doit être rejetée ou non. -L’interprétation des effets principaux : La statistique Fobservé calculée pr chaque effet principal est statistiquement significative qnd elle est égale ou supérieur au Fcritique. Un effet principal qui est statistiquement significatif indique qu’au moins un des groupes provient d’une population différente des autres. (comme pr l’ANOVA à un facteur), un test de comparaison multiple (Scheffé, chap11) pt permettre de déterminer quel groupe diffère des autres. La taille d’effet de chaque effet principal pt être calculée en utilisant la statistique ⴄ2 (chap11). Calcul des statistiques F décrivant les effets principaux : Formule; Effet principal A : Fintergroupes facteur A = CMinterfacteur A / CMintra Formule; Effet principal B : Fintergroupes facteur B= CMinterfacteur B / CMintra Calcul des écarts moyens inter et intragroupes (pareil à celle du chap11 pr l’ANOVA à un facteur) : Formule; Effet d’interaction A x B : Finteraction= CMinteraction / CMintra CMinteraction : la différence moyenne (au carré) entre la moyenne de chacun des groupes et la moyenne globale. Les carrés moyens intragroupes dns les formules pr l’effet principal A et l’effet principal B sont une seule et même qté. Puisque chaque effet principal ainsi que l’interaction incluent toutes les observations, la qté « intragroupe » est le même pr le test de tous les effets principaux et pr l’interaction. Les moyennes marginales sont importantes pr l’interprétation des effets principaux. La moyenne globale (M.) est la moyenne de tous les participants à l’étude. -Les hypothèses de l’ANOVA factorielle : (ex : p.378) Effet principal pr le facteur A : H1 : µ ≠ µ H01 : µ = µ Effet principal pr le facteur B : H2 : … H02 : … Effet d’interaction A x B : H3 : … H03 : … -La décomposition de la somme totale des carrés : La somme totale des différences inclut les éléments suivants : L’interaction Chacun des 2 facteurs La variabilité intragroupe Formule : SCtotal= SCinter facteur 1 + SCinter facteur 2 + SCinteraction + SCintra Chacune de ces 4 sources de variabilité sont indépendante des autres. L’indépendance vt dire que chaque élément est libre de varier sans être influencé par les autres. Ainsi, possible de conclure ou non à une différence statistiquement significative pr le facteur A et/ou le facteur B et/ou pr l’interaction AxB. Ces 4 sources de variabilité se retrouvent au tableau des sources de variance pr l’ANOVA factorielle. Le tableau des sources de variances pour l’ANOVA factorielle : L’interprétation des différences significatives se fait plus facilement par l’entremise de graphiques. Qnd une différence n’est pas statistiquement significative, il n’est pas utile de la décrire graphiquement. La signification statistique des statistiques F pour l’ANOVA factorielle : La signification statistique de chacun des effets (quantifiée par les statistiques F), est établie en se référant au tableau des valeurs critiques de F. Après avoir calculé la statistique F pr chaque facteur et pr l’interaction et les degrés de liberté associés à chaque comparaison, cherche dns le tableau la valeur critique F (dlinter, dlintra) correspondant au seuil alpha désiré (0,05, 0,01, ect.). Compare le Fobservé au Fcritique. Qnd le Fobservé est égal ou supérieur à la valeur critique, l’effet est statistiquement significatif. Les degrés de liberté pour l’ANOVA factorielle : Calculer les degrés de liberté pr chaque comparaison, y compris celle de l’interaction, et faire le calcul des degrés de liberté pr la différence intragroupe. (comme pr l’ANOVA simple), nous perdons un degré de liberté pr chaque moyenne calculée. Les degrés de liberté intergroupes pour les effets principaux : Les degrés de liberté intergroupes pour les effets principaux (les différences intergroupes); donnés par K – 1. K : nbr de niveaux pr le facteur considéré. Les degrés de liberté pour l’interaction : Obtenu par : le produit du nbr de groupes moins 1 pr chaque effet principal impliqué dns l’interaction. Dlinteraction= (KA – 1) x (KB – 1) Les graphiques d’interprétation pour les ANOVA factorielles : Construit pr faire l’interprétation des résultats obtenus à la suite d’une analyse de variance factorielle. Les graphiques illustrent les moyennes marginales. En absence d’une différence statistiquement significative, il n’y a pas lieu de construire un graphique d’interprétation. Élaboration des graphiques pr les effets principaux : Pr chacun des facteurs, faire un graphique avec les niveaux de ce facteurs en abscisse. Représentation visuelle d’une interaction : Requise que qnd l’interaction est statistiquement significative. L’interaction représente l’effet conjoint des 2 variables indépendantes. Les 2 variables doivent être représentées sur le même graphique. (puisque l’interaction représente l’effet conjoint des 2 variables indépendantes) Les moyennes placées sur le graphique sont celles obtenues par chacun des groupes. L’abscisse représente l’une des 2 variables indépendantes. Nous utilisons une ligne différente pr chaque niveau de l’autre variable indépendante. L’interprétation préliminaire des résultats statistiquement significatifs : En se référant aux hypothèses, les conclusions préliminaires peuvent être faites. Préliminaire car les résultats qui décrivent les effets principaux ne peuvent être correctement compris que lorsqu’on a préalablement considéré et interprété l’interaction statistiquement significative. Qnd l’interaction n’est pas significative, chaque effet principal s’interprète de la même manière qu’avec l’ANOVA à un facteur. L’interprétation définitive des résultats de l’ANOVA factorielle : L’interprétation des résultats produits par l’ANOVA factorielle débute par l’interaction. Qnd l’interaction est significative, il n’est pas tjrs possible de tirer une interprétation valide des effets principaux. En effet, l’interaction significative indique que les effets d’un facteur dépend du niveau de l’autre fateur. Une interaction est détectée qnd les lignes ne sont pas parallèles. Qnd les lignes sont parallèles; il n’y a pas d’interaction. En général, une interaction statistiquement significative empêche l’interprétation des effets principaux. Les effets simples : Qnd l’intercaction est significative, il est recommandé de décomposer les données en sous-groupes et de tester la différence entre chacun des groupes; grâce aux procédés statistique nommé : les effets simples. *L’ANOVA retourne une statistique F pr chaque hypothèse. * Chap 13 : Les statistiques non paramétriques : -Les procédures non paramétriques n’exigent pas le respect de la présomption de continuité. -La moyenne et le mode n’étant pas identique : la distribution ne peut pas être normale. Une analyse statistique pt être fait, mais slmt en faisant appel à des procédures non paramétriques. -C une procédure qui : permet l’analyse des variables nominales. ET qui est une alternative au coefficient de corrélation de Pearson ---(le coefficient de corrélation de Spearman)---. -L’analyse de variables nominales : Le test chi deux : C un indice de la taille de la différence entre les fréquences observées et celles réellement obtenues dns notre expérience. Il ft établir une hypothèse (H) et une hypothèse nulle (H0). Fréquence observé (fo) : La fréquence avec laquelle chaque `x` est effectivement choisi. Fréquence attendue (fa) : Probabilité d’obtenir la différence observée si, il n’y avait pas de différence concernant `…` . La comparaison entre ces deux fréquences sera la base de l’analyse statistique requise. Pr faire l’analyse : chi deux, qui se nomme aussi chi carrée (X2) Cette statistique (X2) : Produit un indice qui compare la taille de la différence entre la fréquence observée et celle prédite par l’hypothèse nulle. Si la différence est grande : Rejet de l’hypothèse nulle. Sinon : conclure que la diff. observée est attribuable, donc pas de rejet de Ho. Formule : X2= [(fo – fa)2 / fa] fo : Fréquence observée fa : Fréquence attendue (sous H0) Qnd les fréquences observées et attendues sont les mêmes pr une ou plusieurs catégories, le rapport établi entre ces fréquences sera de 0. MAIS, au fur et à mesure que la différence augmente, le rapport prend des valeurs positives de plus en plus importantes, faisant en sorte que : la sommation finale produira un X2 de plus en plus grand. Nous faisons cela pr chaque cellule, puis nous additionnons tous ces résultats pr obtenir la statistique X2. La valeur ne peut jamais être négative (à cause que c au carré) Sa valeur minimale (de X2) : 0,0 (qnd les valeurs observées et attendues sont tous identiques) Sa valeur maximale : est indéterminé (Plus grande est la valeur X2, plus il est probable que les fréquences obtenues diffèrent de celles que nous aurions dû obtenir si l’H0 était celle à retenir. Plus il y a de catégories à analyser, plus grande est la somme des différences entre les valeurs obtenues et attendues et plus grande est la qté chi deux. Donc, pr faire l’interprétation, ft prendre en considération non slmt sa taille mais aussi le nbr de catégories sur lequel il a été calculé. -L’interprétation de chi deux : Comparer le résultat obtenu (ex : X2=21,03) à un tableau des valeurs critiques de la distribution de la statistiques X2. (Annexe A4.) Ft prendre en considération les degrés de libertés, qui seront déterminés à partir du nbr de catégories dns l’étude. Le nbr de degrés de liberté est : K-1 K : le nbr de catégories qui sont comparées -L’Analyse de la variables nominales Pour Deux Variables Indépendantes : Le calcul du chi deux exige le calcul des fréquences attendues (fa). Calculer pr chaque cellule les fréquences marginales qui lui sont associées, que nous divisons par la fréquence totale (toutes les observations). Pr être interpréter, la valeur du chi deux (ex : X2= 21,03) doit être confrontée à une valeur critique de la statistique X2. Les degrés de liberté pr le chi deux ayant deux variables s’obtient avec la formule qui suit : dl= (R – 1) x (C – 1) R : nbr de rangées C : nbr de colonnes Une valeur moindre que la valeur critique impliquant qu’il n’est pas statistiquement significatif. Pt pas rejeter H0. -La Corrélation Entre Les Variables Ordinales : Le coefficient de corrélation de Spearman : Pr calculer le rxy de Pearson, il y a deux requis : Données sont mesurées avec une échelle de type II Données sont homoscédastique : Réfère à la forme d’un nuage de point dns un graphique de dispersion. Si l’épaisseur du nuage de point est constante pr toutes les valeurs, nous disons que les données sont homoscédastiques. Si le nuage de point à plutôt la forme de triangle plutôt que d’un ovale, le coefficient de corrélation de Pearson ne sera pas la technique à utiliser. Qnd les variables à mettre en corrélation ne sont pas homoscédastique ou qu’elles ne sont pas de type II : Le coefficient de corrélation approprié pr l’analyse est le coefficient de corrélation par rang, nommé : Coefficient de corrélation de Spearman. Identifié par : ρxy (rho) La valeur numérique varie entre -1 et +1. Valeur de +1 (-1) : indique une corrélation positive (négative) parfaite. Valeur de 0 : indique l’absence de corrélation. La différence entre le coefficient de Pearson et le coefficient de Spearman : ce dernier exige que les données mises en corrélation soient des rangs. Qnd les pers. Qui obtiennent un rang élevé (ou faible) sur une var. obtiennent aussi un rang élevé (ou faible) sur l’autre var., la corrélation de Spearman est élevée. La corrélation de Spearman est négative qnd ceux qui obtiennent de forts rangs sur une var. tendent à obtenir des rangs faibles sur l’autre (et vice versa). S’il n’y a ni tendance positive ni tendance négative, la corrélation de Spearman sera proche de 0. La corrélation de Spearman indique : Le degré avec lequel les personnes de l’échantillon occupent le même rang sur les deux variables. Calcul de Spearman, (4 étapes) : Mettre en rang croissant chacune des varleurs de la variable X et, séparément, chacune des valeurs de la variable Y. Calculer pr chaque observation la différence (di) entre les rangs obtenus aux deux variables (di= rangX – rangY). Élever cette différence au carré pr chaque observation (di2). Appliquer la formule suivante pr calculer la corrélation par rang. Formule : ρ = 1 – $\frac{6\ x\ d_{i}^{2}}{N^{3} - N\ }$ N : nbr d’observations -Un Test Sur Deux Échantillons Indépendants : Le Wilcoxon-Mann-Whitney : Le test t sur deux échantillons indépendants sert à déterminer si les échantillons proviennent de la même pop ou de 2 pop différentes (chap.10). Ce test présume que les données dns chaque échant. Sont mesurées sur une échelle de type II et que la distribution de la variable dns la pop est à peu près normale. Ce test est inapproprié si par ex, on vt comparer le revenu moyen des hommes avec celui des femmes, car la distribution des revenues, dns la pop, est très asymétrique. Une alternative au test t est : Le test de Wilcoxon-Mann-Whitney Pr être applicable : il doit être possible de déterminer le rang des observations, nonobstant le groupe auquel chaque observation appartient. Ce test permet de vérifier s’il y a une différence entre ‘…’ des ces deux groupes. On pt calculer la somme des rangs… La taille de la différence entre la somme des rangs pr les deux groupes dépend du nbr d’observations. Donc : Ft standardiser cette différence afin d’éliminer l’influence du nbr de rangs sur le résultat. Formule pr standardiser : z= $\frac{\left| SR_{1} - \frac{N_{1}\left( N + 1 \right)}{2} \right| - 0,5}{\sqrt{\frac{N_{1}N_{2}\left( N + 1 \right)}{12}}}$ SR1 : la somme des rangs dns le groupe 1 N1 : la taille du groupe 1 N2 : la taille du groupe 2 N : taille totale des deux groupes (N=N1+N2) Ft retirer 0,5, car les rangs peuvent être vus comme un nbr arrondi. N1(N+1)/2 : représente la somme des rangs à laquelle nous pourrions nous attendre si l’hypothèse nulle était à retenir. Qnd la somme des rangs obtenus dns un groupe (SR1) est très proche de la moitié de la somme de tous les rangs, la soustraction donnera une différence très proche de 0. Indépendamment du dénominateur, la qté Z sera alors elle aussi, proche de 0. Dns cette formule; le dénominateur sert à établir la standardisation comme telle et c’est le rapport entre le numérateur et le dénominateur qui produit la valeur Z qui elle définit la taille standardisée de la différence entre les rangs obtenues par les 2 groupes. Faudra comparer la différence standardisée (résultat de la formule ci-dessus) à une valeur critique. Si la val. standardisée est supérieur à la val. critique : rejet de H0 Si elle lui est égale ou inférieure : l’hypothèse nulle ne pt pas être rejetée La valeur critique pr ce test se base sur le tableau de la distribution de la densité sous la courbe normale (Z, Annexe A1) Si la valeur Z produite par le Wilcoxon-Mann-Whitney est supérieure à 1,96 : la différence entre les deux groupes est statistiquement significative (au seuil alpha inférieur à 5%) Si la valeur Z est supérieure à 2,58 : la diff. entre les 2 groupes sera statistiquement significative au seuil α < 0,01. -Un Test Sur K Échantillons Indépendants : L’ANNOVA, comme le test t, nécessite que les mesures soient obtenues sur une échelle de type II et que la distribution de la pop soit à peu près normale. Si l’un ou l’autre des ces prérequis n’est pas satisfait, ft utiliser un test alternatif. Le test non paramétrique de Kruskal-Wallis sur plusieurs (k) échantillons indépendants est une alternative de l’ANNOVA. (L’ANNOVA est une généralisation du test t) Kruskal-Wallis est une généralisation du Wilcoxon-Mann-Whitney Le Kruskal-Wallis débute par le remplacement des valeurs originales par des rangs. On établis d’abord les rangs de toutes les observations (Sans tenir compte du groupe auquel chaque observation appartient). Puis, nous calculons, pr chaque groupe; la somme des rangs. Par la suite : mettre ces sommes au carré et calculer une statistique g. Enfin : la valeur g que nous avons calculée est maintenant comparée à une valeur critique (gcritique). (Cette valeur critique est pratique car il s’agit de la valeur critique du X2. Si g est plus grand que la valeur critique du X2 : rejette H0. Donc toutes les grouppes viennent de la même pop. Formule pour la statistique g : g= $\frac{\frac{SR_{i}^{2}}{N}}{\frac{N\left( N + 1 \right)}{12}} - 3\left( \mathbb{N} + 1 \right)$ SRi : somme des rangs di ie groupe Ni : taille du ie groupe N : nbr total d’observations dns tous les groupes K : nbr de groupes La règle de décision est : rejet de H0 si g > gcritique La val. Critique dont la statistique g sera comparé s’obtiendra directement dns le tableau des valeurs critiques de la distribution (Annexe A4.) Pr utiliser les tableaux des valeurs critiques, ft établir le nbr de degrés de liberté et choisir le seuil de signification alpha. Le nbr de degrés de liberté s’obtiennent par le nbr de groupes moins un (K – 1) -Le Test De Wilcoxon Sur Données Appareillées : Utiliser qnd vt vérifier le changement. Le test t exige que la var à l’étude soit une variable de type II et que les données soient extraites d’une population normale. Qnd ces exigences ne peuvent pas être respectées, le test non paramétrique de Wilcoxon est la forme d’analyse statistique appropriée. Le test de Wilcoxon nécessite uniquement que l’on puisse calculer l’écart qui existe pr chaque observation entre sa paire de données. Pr faire ce test : Calculer l’écart entre les mesures. (certains écarts seront positifs, d’autres négatifs) En ignorant le signe d’écarts, on pt calculer leurs rangs en fonction de la taille de l’écart. (L’écart le plus petit obtiens le rang 1, le plus grand le rang N) Si les deux mesures proviennent de la même pop (H0), le total des rangs d’écarts positifs devrait être semblable au total des rangs négatifs, et valoir la moitié de la somme de tous les rangs. Le jeu d’hypothèses est pareil que celui des autres : H1 : La somme des rangs ayant un écart positif n’est pas égale à la moitié des rangs. H0 : La somme des rangs des gens ayant un écart positif vaut la moitié de la somme totale des rangs, soit N(N+1) / 2 et N est le nbr de paires d’observations. La règle de décision est : Rejet de H0 si SR+ > SRcritique SR+ : somme des rangs pr ceux ayant un écart positif. Qnd nous avons plus que 15 observations, on pt standardiser SR+ avec la formule suivante : Z= $\frac{\left| SR_{+} - N\left( N + 1 \right) \slash 4 \right|}{\sqrt{N\left( N + 1 \right)\left( 2N + 1 \right) \slash 24}}$ La valeur critique dont le résultat sera comparé proviendra du tableau de densité sous la courbe normale (Annexe A1). La règle de décision devient : Rejet de Ho si z > zcritique La valeur critique est tirée de l’annexe A1. -Les erreur d’inférence : *(RÉVISION DE MATIÈRE INTRA PR LES TYPES D’ERREURS)* L’erreur de type I (erreur alpha) : consiste à conclure à partir des échantillons qu’il existe une différence dns la population alors qu’il n’en existe pas. Qnd nous concluons à la signification statistique, nous courrons un risque d’avoir émis une fausse conclusion. Le seuil alpha indique le risque d’une erreur d’inférence associé à la conclusion que l’échantillon ne provient pas de la pop. L’erreur de type II (erreur bêta) : consiste à conclure à partir des échantillons qu’il n’existe pas de différence dns la population alors qu’il en existe une. -Les éléments qui affectent le risque d’une erreur de type I et de type II : L’inférence statistique (H et H0) dépend de la taille de l’intervalle de confiance. Qnd l’IC est très étroit, il est moins probable que la moyenne d’un échantillon tombe à l’intérieur de l’IC de l’autre, ce qui entrainera une conclusion en faveur du rejet de H0. Ainsi, qnd l’intervalle de confiance est construit avec des bornes étroites (95 ou 90% par ex), le risque de commettre une erreur de type I augmente. À l’inverse, qnd l’intervalle de confiance a des bornes très larges, seuls les échantillons qui produisent une moyenne très différente se retrouveront à l’extérieur des bornes de l’IC. Alors, slmt les différences très grandes entre les moyennes des 2 échantillons seront statistiquement significatives. Ainsi, les chances de commettre une erreur de type II sont plus grande alors que les chances de commettre une erreur de type I réduit. Car …: La taille de l’IC est déterminée par 2 éléments : la valeur Z et la taille de l’erreur type moyenne. La valeur Z est déterminée par le seuil de confiance (alpha). …qnd vt minimiser le risque de commettre une erreur d’inférence de type I et conclure correctement que 2 échantillons diffèrent, ont doit choisir un seuil alpha petit (ce qui équivaut à un Z plus grand)… Ceci va élargir les bornes de l’IC. … En élargissant les bornes, seules les grandes différences entre les moyennes des groupes pourront mener au rejet de H0. L’erreur type de la moyenne est déterminer par 2 éléments : le nbr d’observations (N) et l’écart-type des observations (s). …Qnd l’écart-type de l’échantillon est grand, l’erreur type de la moyenne est grande et Qnd le nbr d’observations N est petit, l’erreur type de la moyenne est grande aussi. …En travaillant avec plus d’observations, nous réduisons la taille de l’erreur type de la moyenne, ce qui produira des intervalles de confiances plus étroits. …donc, les chances que les bornes de l’intervalle de confiance d’un groupe ne recoupent pas la moyenne de l’autre groupe augmente, ce qui rend plus probable la conclusion en faveur du rejet de H0. Plus grande l’échantillon, plus petite l’erreur type de la moyenne Plus petite l’erreur type de la moyenne, plus étroit l’intervalle de confiance. Plus grand l’échantillon, plus étroit l’IC. Plus petit l’échantillon, plus l’erreur type de la moyenne est grande Plus l’erreur type de la moyenne est grande, plus les IC sont larges Qnd la différence entre 2 pop est réelle mais petite, et que nous la testons avec des petit échantillons, il est facile de commettre une erreur de type II, c’est-à-dire conclure que la différence n’est pas significative. Qu’une seule pop existe plutôt que 2. Inversement, plus les échantillons sont de grandes tailles, plus la probabilité de conclure qu’ils proviennent de la même pop est petite. Donc, la probabilité de commettre une erreur de type II diminue. Plus petite est la valeur alpha, plus grande est la valeur Z. L’accroissement de la valeur Z entraine l’accroissement des bornes de l’intervalle de confiance. …Qnd ces bornes s’élargissent, seules les grandes différence entre les moyennes permettent de conclure à la signification statistique. Donc, qnd le seuil alpha est plus petit, c plus difficile de rejeter H0 et plus probable de conclure que la différence entre les moyennes n’est pas significative. Le risque d’une erreur de type I est plus petit, mais le risque d’une erreur de type II est plus grand. Inversement, l’IC est plus étroit qnd le seuil de signification augmente. Cette augmentation entraine une tolérance à un risque d’erreur plus grand. L’intervalle se réduit et augmente nos chances de conclure à la signification statistique (rejet de H0), donc plus de risque de commettre une erreur de type I. -Choisir entre le risque d’une erreur de type I ou de type II : (Va à la page 285 dns le livre)

Use Quizgecko on...
Browser
Browser