Les échelles de mesure: nominale et ordinale

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Quelle échelle de mesure est constituée d'éléments qui ne sont pas quantitatifs et n'ont pas de rapport d'ordre entre eux ?

  • Échelle ordinale
  • Échelle d'intervalle
  • Échelle nominale (correct)
  • Échelle numérique

Dans une échelle ordinale, quelle propriété est absente, ce qui la distingue des échelles numériques ?

  • L'intervalle constant entre les éléments (correct)
  • Incapacité à classer les éléments
  • Impossibilité de calculer des pourcentages
  • Absence de catégories définies

Quelle caractéristique distingue une échelle numérique relative (ou d'intervalle) d'une échelle numérique absolue (ou de rapport) ?

  • La présence d'un zéro arbitraire (correct)
  • L'absence d'unité de mesure
  • L'impossibilité de calculer la moyenne
  • La présence d'un zéro absolu

Si une série de données a plusieurs modes, comment est-elle décrite ?

<p>Multimodale (C)</p> Signup and view all the answers

Qu'est-ce que représente le mode dans une distribution groupée par intervalles, en tenant compte des différentes longueurs des intervalles ?

<p>L'intervalle avec la plus grande densité (C)</p> Signup and view all the answers

Qu'est-ce que les quantiles permettent de faire avec une série statistique ?

<p>Découper la série en portions équivalentes (B)</p> Signup and view all the answers

Pour quelles échelles de mesure est-il approprié de déterminer les quantiles ?

<p>Échelles ordinales et numériques (A)</p> Signup and view all the answers

Quelle est la principale différence entre la moyenne et la médiane en termes de sensibilité aux valeurs extrêmes ?

<p>La moyenne est plus sensible (B)</p> Signup and view all the answers

Comment est définie l'étendue dans une série de données statistiques ?

<p>La différence entre la valeur maximale et la valeur minimale (B)</p> Signup and view all the answers

Que représente l'intervalle interquartile [Q1; Q3] ?

<p>Les effectifs contenus entre le premier et le troisième quartile (A)</p> Signup and view all the answers

Comment calcule-t-on les positions des quartiles Q1 et Q3 dans une série de données, étant donné un effectif total N ?

<p>Q1 = N/4 et Q3 = 3N/4 (D)</p> Signup and view all the answers

Si l'intervalle interquartile contient environ la moitié des observations, comment sont réparties les observations qui ne sont pas incluses dans cet intervalle ?

<p>Réparties équitablement des deux côtés de l'intervalle (A)</p> Signup and view all the answers

Quelle est la définition de la variance dans une série statistique ?

<p>La distance moyenne entre les valeurs et la moyenne (B)</p> Signup and view all the answers

Quelle est la relation entre l'écart-type et la variance ?

<p>L'écart-type est la racine carrée de la variance. (C)</p> Signup and view all the answers

Dans quelles conditions la variance d'une série de nombres est-elle égale à zéro ?

<p>Si la série ne contient qu'une seule valeur (A)</p> Signup and view all the answers

Quelle est la principale nouveauté du second semestre par rapport au premier dans le contexte de ce cours de statistiques ?

<p>L'introduction d'une deuxième variable dépendante. (B)</p> Signup and view all the answers

Dans le cadre de l'analyse statistique, quel terme est utilisé pour désigner l'étude de plusieurs variables dépendantes simultanément ?

<p>Statistiques multivariées. (D)</p> Signup and view all the answers

Quelle est la définition correcte d'un tableau de contingence ?

<p>Un tableau à double entrée croisant les données de deux variables. (C)</p> Signup and view all the answers

Dans un tableau de contingence, que représentent généralement les lignes et les colonnes ?

<p>Les modalités des deux variables étudiées. (C)</p> Signup and view all the answers

Qu'est-ce qu'un effectif partiel dans un tableau de contingence ?

<p>L'effectif dans une case particulière, croisant deux modalités spécifiques. (C)</p> Signup and view all the answers

Quel est l'avantage principal de regrouper les données brutes dans un tableau de contingence ?

<p>Faciliter la lecture et l'interprétation des données en regroupant les observations similaires. (C)</p> Signup and view all the answers

Lors de la création d'un tableau de contingence, que représente le total des effectifs marginaux de X ?

<p>L'effectif total de l'échantillon. (A)</p> Signup and view all the answers

Quelle est la définition d'une fréquence dans un tableau de distribution de fréquences ?

<p>Le nombre d'observations d'une modalité rapporté à l'effectif total. (A)</p> Signup and view all the answers

Comment convertit-on une fréquence en pourcentage ?

<p>En multipliant par 100. (B)</p> Signup and view all the answers

Quel est l'intérêt principal de déterminer les fréquences dans un tableau de contingence ?

<p>Avoir une idée de l'importance relative de chaque croisement de modalités dans un espace normalisé. (D)</p> Signup and view all the answers

Dans un tableau de fréquences, à quoi doit être égale la somme de chaque ligne ou de chaque colonne ?

<p>À 1 (ou 100%). (B)</p> Signup and view all the answers

Que représentent les fréquences marginales ?

<p>La somme des fréquences partielles, correspondant aux distributions marginales des effectifs. (D)</p> Signup and view all the answers

Quelle est la définition d'une distribution conditionnelle ?

<p>L'étude d'une seule variable en considérant une modalité spécifique de l'autre variable. (A)</p> Signup and view all the answers

Dans un tableau de contingence, comment fixe-t-on une modalité pour étudier une distribution conditionnelle ?

<p>En ne considérant qu'une ligne ou qu'une colonne particulière. (D)</p> Signup and view all the answers

Comment appelle-t-on une ligne ou une colonne particulière d'un tableau de contingence utilisée pour étudier une distribution conditionnelle ?

<p>Série conditionnelle ou profil. (C)</p> Signup and view all the answers

À quelle question les distributions conditionnelles permettent-elles de répondre ?

<p>La proportion d'une modalité de la variable X est-elle plus importante pour une certaine modalité de Y ? (C)</p> Signup and view all the answers

Dans l'analyse des distributions conditionnelles avec les fréquences, qu'est-ce qui est pris en compte au lieu de l'effectif total (N) ?

<p>L'effectif total de la modalité fixée. (D)</p> Signup and view all the answers

Dans quel cas la somme des fréquences de la série conditionnelle sera-t-elle toujours égale à 1 ?

<p>En divisant chaque valeur par le total approprié. (B)</p> Signup and view all the answers

Comment construit-on un tableau de profils en lignes ?

<p>En divisant l'effectif de chaque case par le total de la ligne correspondante. (C)</p> Signup and view all the answers

Si l'on souhaite examiner le niveau moyen de dépression pour les patients ayant un score d'anxiété de 9, quel type de statistique calcule-t-on ?

<p>Une statistique conditionnelle. (D)</p> Signup and view all the answers

Qu'est-ce qui rend possible le calcul des statistiques conditionnelles de position et de dispersion ?

<p>Les données appartenant à une échelle numérique. (C)</p> Signup and view all the answers

Comment calcule-t-on une statistique conditionnelle telle que la moyenne ?

<p>En calculant la moyenne des effectifs à travers une des variables pour une modalité fixée de l'autre variable. (B)</p> Signup and view all the answers

Quel est le principal objectif de l'utilisation des données dans Jamovi ?

<p>Faciliter l'analyse statistique. (D)</p> Signup and view all the answers

Si un chercheur utilise Jamovi pour la première fois, quelles ressources seraient les plus utiles pour débuter ?

<p>Le guide d'utilisateur officiel et les tutoriels vidéo. (A)</p> Signup and view all the answers

Pourquoi le cours met-il l'accent sur l'utilisation de Jamovi en complément d'un tableur comme LibreOffice Calc ?

<p>Pour combiner les capacités d'organisation des données d'un tableur avec la puissance analytique d'un logiciel statistique spécialisé. (C)</p> Signup and view all the answers

Quelles sont les caractéristiques de la licence sous laquelle le matériel du cours est mis à disposition ?

<p>Exige une attribution, interdit l'utilisation commerciale et impose le partage dans les mêmes conditions. (D)</p> Signup and view all the answers

Où peut-on trouver une copie de la licence mentionnée pour le matériel du cours ?

<p>Sur le site web Creative Commons. (D)</p> Signup and view all the answers

Qu'est-ce qui est autorisé selon les termes de la licence du cours, en dehors du partage et de la copie du matériel ?

<p>L'adaptation et la transformation du matériel. (C)</p> Signup and view all the answers

Quelles sont les conditions à respecter lors du partage de matériel modifié du cours ?

<p>L'attribution de l'œuvre originale, l'absence d'utilisation commerciale et le partage dans les mêmes conditions. (C)</p> Signup and view all the answers

Lorsque l'on étudie la liaison entre deux variables, que signifie une parfaite indépendance entre elles ?

<p>Les effectifs ou fréquences dans les cases du tableau de contingence sont égaux. (A)</p> Signup and view all the answers

Dans le contexte de l'étude de la covariance, pourquoi est-il nécessaire de relever les deux mesures (pour deux variables) en même temps ou pour le même individu ?

<p>Pour pouvoir étudier les liaisons entre les variables. (B)</p> Signup and view all the answers

Quelle est la principale différence entre le calcul de la variance et celui de la covariance ?

<p>La variance mesure la dispersion autour de la moyenne, tandis que la covariance mesure la relation entre deux variables. (A)</p> Signup and view all the answers

Comment interprétez-vous une covariance nulle entre deux variables ?

<p>Les deux variables sont parfaitement indépendantes. (C)</p> Signup and view all the answers

Que représente un diagramme de dispersion dans l'analyse de deux variables ?

<p>Une représentation graphique de la relation entre les deux variables. (A)</p> Signup and view all the answers

Comment décririez-vous la forme d'un nuage de points qui suggère une absence globale de lien entre deux variables ?

<p>Une forme patatoïdale. (C)</p> Signup and view all the answers

Dans un diagramme de dispersion, quel type de relation est suggéré si les points se distribuent le long d'une ligne droite montante ?

<p>Une relation positive. (A)</p> Signup and view all the answers

Quelle est la principale utilité de la corrélation linéaire ?

<p>Mesurer la force et la direction d'une relation linéaire entre deux variables. (C)</p> Signup and view all the answers

Quelle est la plage de valeurs possibles pour le coefficient de corrélation linéaire 'r' ?

<p>De -1 à +1. (B)</p> Signup and view all the answers

Comment interprétez-vous un coefficient de corrélation linéaire positif ?

<p>Les deux variables varient dans le même sens. (A)</p> Signup and view all the answers

Quelle information supplémentaire est nécessaire pour calculer le coefficient de corrélation linéaire, une fois que la covariance entre deux variables est connue ?

<p>L'écart-type de chaque variable. (B)</p> Signup and view all the answers

Dans le contexte de la prédiction statistique, que représente la droite de régression ?

<p>La droite qui représente au mieux la relation linéaire entre deux variables. (B)</p> Signup and view all the answers

Qu'est-ce que le "résidu" dans le contexte de la droite de régression ?

<p>La distance entre un point réel et la droite de régression. (D)</p> Signup and view all the answers

Dans l'équation de la droite de régression y = ax + b, que représente le terme 'b' ?

<p>L'ordonnée à l'origine. (D)</p> Signup and view all the answers

Par convention, laquelle des variables (X ou Y) représente la variable que l'on cherche à prédire dans une analyse de régression ?

<p>Y. (B)</p> Signup and view all the answers

Qu'est-ce que l'erreur type dans le contexte de la régression linéaire ?

<p>L'erreur d'échantillonnage affectant l'estimation des paramètres de la droite de régression. (D)</p> Signup and view all the answers

Comment peut-on calculer la valeur de 'b' (l'ordonnée à l'origine) dans l'équation de la droite de régression une fois 'a' (la pente) connue ?

<p>En utilisant un point connu de la droite, tel que le centre de gravité du nuage de points. (B)</p> Signup and view all the answers

Dans une situation où il est impossible d'utiliser une régression pour prédire une valeur, quelle est la meilleure alternative pour résoudre le problème des données manquantes ?

<p>Utiliser la moyenne de la série considérée. (C)</p> Signup and view all the answers

Dans le cas d'une prédiction sans prédicteur, comment l'utilisation de la moyenne aide-t-elle à « résumer » la série statistique ?

<p>Elle réduit le risque de se tromper par rapport à la valeur réellement observée. (C)</p> Signup and view all the answers

Dans une situation où vous devez prédire une donnée manquante et que vous disposez d'informations sur des sous-groupes (série conditionnelle), quelle approche est la plus appropriée ?

<p>Utiliser la moyenne du sous-groupe auquel appartient l'individu. (A)</p> Signup and view all the answers

Quelle conclusion peut-on tirer si l'on constate que l'application de l'équation de la droite de régression linéaire conduit à des résultats incohérents ?

<p>La relation linéaire est seulement un résumé approximatif de ce qui se passe. (B)</p> Signup and view all the answers

Quelle est l'influence de la taille de l'échantillon sur l'erreur d'échantillonnage dans l'estimation des paramètres d'une droite de régression ?

<p>Plus l'échantillon est petit, plus l'erreur est grande. (A)</p> Signup and view all the answers

Pour des valeurs non numériques, que peut-on faire d'autre pour calculer des liaisons entre deux variables ?

<p>Il existe d'autres méthodes statistiques (voir le cours de 2° année). (C)</p> Signup and view all the answers

Quand est-ce qu'il faut exclure les valeurs orphelines pour calculer les différents indices (covariance, variance...) ?

<p>Dans le cadre de ce cours. (A)</p> Signup and view all the answers

Quel indice statistique peut-on utiliser dans une série simple avec des données manquantes ?

<p>la moyenne. (A)</p> Signup and view all the answers

Que représentent le a et le b dans la droite de régression linéaire ?

<p>des estimations. (B)</p> Signup and view all the answers

Quel est une description qui correspond à une série conditionnelle ?

<p>L'idéal serait de disposer de plusieurs variables pour prédire la donnée manquante. (C)</p> Signup and view all the answers

Vrai ou Faux : Une corrélation ne signifie pas un lien causal.

<p>Vrai. (C)</p> Signup and view all the answers

Quel terme décrit le mieux l'erreur entre les points réels et la droite de régression ?

<p>Résidus. (B)</p> Signup and view all the answers

Supposons qu'un diagramme de dispersion révèle une relation non linéaire. Comment décririez-vous la disposition des données, en particulier en référence au sens directionnel ?

<p>Les points changent de sens dans l'encadré, résultant en une dispersion du diagramme. (D)</p> Signup and view all the answers

Dans la droite de régression linéaire, laquelle des options suivantes correspond au cœfficient directeur de la droite ?

<p>La pente. (B)</p> Signup and view all the answers

En utilisant l'équation calculée pour la capacité de lecture selon le temps de lecture à la maison, quelle serait la capacité probable de lecture d'un enfant lisant en moyenne 4 heures à la maison ?

<p>15 à 20. (C)</p> Signup and view all the answers

L'utilisation ou le calcul de quoi peut vous aider à tracer la droite de régression ?

<p>Les points (centre de gravité G). (A)</p> Signup and view all the answers

La droite régresse les différences. D'où vient son nom ?

<p>Elle régresse les différences, c'est à dire les distances. (D)</p> Signup and view all the answers

Pour lier chaque couple de données, quelle opération faut-il faire ?

<p>Pour des raisons mathématiques, il est convenu de multiplier ces valeurs entre elles. (B)</p> Signup and view all the answers

Les résultats que vous obtiendrez en utilisant ces formules correspondent à quoi ?

<p>Les formules indiquées correspondent aux calculs appliqués à des populations alors qu'en réalité ce sont presque toujours des échantillons qui sont utilisés. (D)</p> Signup and view all the answers

Quand dit-on qu'une corrélation est dite positive ?

<p>Si la valeur obtenue est supérieure à 0. (D)</p> Signup and view all the answers

Si la covariance entre deux variables est positive, qu'est-ce que cela indique quant à la relation entre leurs valeurs ?

<p>Quand les valeurs de X augmentent, les valeurs de Y tendent à augmenter également. (A)</p> Signup and view all the answers

Dans le contexte de l'analyse de données, pourquoi est-il important de relever simultanément les mesures pour deux variables lors du calcul de la covariance?

<p>Pour étudier les liaisons entre les variables, assurant que les variations sont comparables pour le même individu ou au même moment. (A)</p> Signup and view all the answers

Quelle est l'interprétation correcte d'une covariance nulle entre deux variables X et Y ?

<p>X et Y sont statistiquement indépendantes. (C)</p> Signup and view all the answers

Comment la forme d'un nuage de points dans un diagramme de dispersion peut-elle aider à identifier la relation entre deux variables ?

<p>Une forme aléatoire sans structure apparente suggère une absence de lien systématique. (D)</p> Signup and view all the answers

Si, dans un diagramme de dispersion, les points se répartissent le long d'une ligne droite descendante, quelle conclusion peut-on en tirer concernant la relation entre les variables ?

<p>Il existe une relation linéaire négative entre les variables. (C)</p> Signup and view all the answers

Quelle est la principale utilité du coefficient de corrélation linéaire dans l'analyse statistique ?

<p>Mesurer la force et la direction d'une relation linéaire entre deux variables. (B)</p> Signup and view all the answers

Une fois que la covariance entre deux variables est connue, quelle information supplémentaire est nécessaire pour calculer le coefficient de corrélation linéaire ?

<p>L'écart-type de chaque variable. (C)</p> Signup and view all the answers

Dans l'équation de la droite de régression linéaire y = ax + b, que représente le coefficient 'a' ?

<p>La pente de la droite, indiquant le changement de y pour chaque unité de changement de x. (A)</p> Signup and view all the answers

Dans une analyse de régression, laquelle des variables, X ou Y, représente typiquement la variable que l'on cherche à prédire ?

<p>Y, car elle est considérée comme la variable dépendante. (B)</p> Signup and view all the answers

Si l'application de l'équation de la droite de régression linéaire conduit à des résultats incohérents, quelle conclusion peut-on en tirer ?

<p>La relation entre les variables n'est peut-être pas linéaire ou la régression n'est pas adaptée aux données. (D)</p> Signup and view all the answers

Flashcards

Qu'est-ce qu'une échelle nominale ?

Une échelle où les éléments ne sont pas quantitatifs et n'ont pas de rapport d'ordre.

Qu'est-ce qu'une échelle ordinale ?

Une échelle où les éléments ont une relation d'ordre, mais pas d'intervalles égaux.

Qu'est-ce qu'une échelle numérique ?

Une échelle où les éléments ont une relation d'ordre et des intervalles constants.

Qu'est-ce que le mode ?

La valeur la plus fréquente dans un ensemble de données.

Signup and view all the flashcards

Que sont les quantiles ?

Des valeurs qui divisent un ensemble de données en portions égales.

Signup and view all the flashcards

Qu'est-ce que la médiane ?

Le quantile central divisant les données en deux parties égales.

Signup and view all the flashcards

Qu'est-ce que la moyenne ?

Une valeur typique représentant l'ensemble des données.

Signup and view all the flashcards

Qu'est-ce que l'étendue ?

La différence entre les valeurs maximales et minimales.

Signup and view all the flashcards

Qu'est-ce que l'intervalle interquartile ?

L'intervalle entre le premier et le troisième quartile.

Signup and view all the flashcards

Qu'est-ce que la variance ?

Mesure la dispersion des données autour de la moyenne.

Signup and view all the flashcards

Qu'est-ce que l'écart-type ?

La racine carrée de la variance, exprimée dans les mêmes unités que les données.

Signup and view all the flashcards

Qu'est-ce que la fréquence ?

Nombre d'observations d'une modalité/condition rapporté à l'effectif total.

Signup and view all the flashcards

Qu'est-ce qu'un intervalle/classe ?

Un ensemble de valeurs comprises entre deux bornes (incluses ou exclues).

Signup and view all the flashcards

Qu'est-ce que le centre de classe ?

Valeur moyenne de l'intervalle.

Signup and view all the flashcards

Qu'est ce qu'une variable dépendante ?

Une variable qui dépend du phénomène observé et non de l'expérimentateur.

Signup and view all the flashcards

Qu'est-ce qu'un tableau de contingence ?

Tableau croisant les données de deux variables.

Signup and view all the flashcards

Qu'est-ce qu'un effectif partiel ?

Nombre d'observations pour un croisement de modalités.

Signup and view all the flashcards

Tableau de distribution de fréquences

Tableau des effectifs divisés par l'effectif total.

Signup and view all the flashcards

Définition fréquences marginales

Somme des fréquences partielles.

Signup and view all the flashcards

Distribution conditionnelle

Consiste à ne considérer qu'une seule variable à travers une modalité de l'autre.

Signup and view all the flashcards

Qu'est-ce qu'un effectif ?

Nombre d'observations dans un tableau

Signup and view all the flashcards

A quoi sert une distribution conditionnelle ?

Etudier une variable en fixant la valeur d'une autre.

Signup and view all the flashcards

Qu'est-ce qu'une liaison entre variables?

Association entre les variations de deux variables.

Signup and view all the flashcards

Qu'est-ce que l'indépendance théorique ?

Les variations d'une variable n'affectent pas l'autre.

Signup and view all the flashcards

Qu'est-ce qu'un diagramme de dispersion ?

Représentation visuelle de la relation entre deux variables.

Signup and view all the flashcards

Qu'est-ce que la corrélation linéaire ?

Mesure de la force et de la direction d'une relation linéaire.

Signup and view all the flashcards

Qu'est-ce qu'une droite de régression ?

Une ligne droite qui représente au mieux la relation entre deux variables.

Signup and view all the flashcards

Qu'est-ce que le résidu ?

Erreur de la distance entre les points et la droite de régression.

Signup and view all the flashcards

Qu'est-ce qu'une variable prédictrice ?

Variable à prédire dans une régression.

Signup and view all the flashcards

Qu'est ce que l'erreur type ?

Erreur due à l'estimation des paramètres de la droite de régression.

Signup and view all the flashcards

Prédiction sans prédicteur ?

Moyenne utilisée pour prédire une valeur manquante.

Signup and view all the flashcards

Study Notes

  • Ce cours poursuit l'objectif du premier semestre en ajoutant un deuxième caractère, se concentrant sur les relations entre ces caractères, notamment via l'étude des corrélations et régressions.
  • Le concept de distribution conditionnelle permet d'étudier le comportement d'une variable en fonction d'une modalité fixée de l'autre variable.
    • En d'autres termes, cela permet de regarder chaque ligne du tableau de contingence à travers les colonnes.
  • Pour les exercices, l'arrondissement à deux chiffres après la virgule est recommandé.
  • Ce cours est enseigné par Guillaume Vallet à l'Université Clermont Auvergne (U.F.R. de Psychologie, Sciences Sociales et Sciences de l’Éducation).

Licence de ce Cours

  • Ce travail est sous licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France.
  • Il est permis partager, copier, distribuer et communiquer le matériel, et de l'adapter (remixer, transformer, créer).
  • L'attribution de l'œuvre est obligatoire avec indication des modifications effectuées.
  • L'utilisation commerciale de l'œuvre est interdite.
  • Le partage de l'œuvre modifiée doit se faire sous la même licence que l'œuvre originale.
  • Aucune restriction légale ou technique ne doit empêcher l'utilisation de l'œuvre selon les termes de la licence.

Objectifs du Cours

  • Étendre les concepts statistiques à une série statistique double (deux variables).
  • Étudier l'indépendance et la relation entre deux variables (profils, covariance, corrélation).
  • Prédire des valeurs en l'absence (ou en présence) d'un prédicteur (régression conditionnelle, linéaire et non linéaire).
  • Comprendre l'erreur-type d'estimation et le pourcentage de variance expliquée.
  • Produire graphiques et calculs avec un tableur et un logiciel de statistiques.

Logiciel JAMOVI

  • Le logiciel d’analyse statistique utilisé est JAMOVI, gratuit, libre, et multiplateforme (https://www.jamovi.org/).
  • JAMOVI offre une alternative moderne et intuitive aux logiciels comme SPSS ou Statistica.
  • Des ressources additionnelles, comme le guide d'utilisateur officiel (en anglais), une chaîne YouTube de tutoriels, et la liste des ressources de la communauté JAMOVI sont disponibles.
  • La dernière version utilisée pour ce cours est la 1.6.9, mais des différences peuvent être constatées avec les versions mises à jour.

Série statistique double

  • Une série statistique double implique l'étude conjointe de deux variables dépendantes, obtenues auprès du même échantillon.
  • L'introduction d'une seconde variable permet d'examiner les relations entre les variables.
  • La terminologie statistique inclut les statistiques univariées (une variable), bivariées (deux variables), et multivariées (plusieurs variables).
  • Les données peuvent être de différents types, mais les données numériques sont privilégiées dans ce cours.
  • Par convention, les deux séries sont désignées par les lettres X et Y, et les valeurs observées pour un individu sont notées xi et yi.

Tableau de contingence - Explications

  • Le tableau de contingence est un tableau à double entrée croisant les données de deux variables.
  • Les données peuvent être groupées par modalité de chaque caractère, ou par intervalles pour l'un ou les deux.
  • Le tableau peut présenter les effectifs ou les fréquences.
  • Les modalités de X sont en lignes et celles de Y en colonnes, le choix des caractères X et Y est libre.
  • Des vidéos explicatives sur le tableau de contingence et les distributions conditionnelles sont disponibles sur YouTube.

Données groupées pour des effectifs

  • Les données brutes sont regroupées en rapportant le nombre d'observations appartenant à chaque modalité.
  • Le nombre de participants qui ont pour valeurs xi et yj est ni,j.
  • Un effectif partiel renvoie à l'effectif d'une case particulièrement (n2,3 par exemple).

Distributions Marginales - Explications

  • Le tableau de contingence permet d’étudier séparément ou conjointement les deux variables dépendantes.
  • La distribution marginale est le compte des effectifs par ligne et par colonne.
  • ni,. = ni,1 + ni,2 + ... + ni,q représente l'effectif total dans la modalité xi, soit la somme des effectifs de la ligne.
  • n.,j = n1,j + n2,j + ... + np,j représente l'effectif total dans la modalité yj, soit la somme des effectifs de la colonne.
  • N = n1,1 + n1,2 + ... + np,q représente l'effectif total, soit la somme de tous les effectifs.
  • La somme des effectifs marginaux de X et de Y est égal à N.

Tableau de distribution de fréquences pour deux variables

  • Comme avec les tableaux de contingence des effectifs, il est possible de déterminer les fréquences relatives de chaque modalité de chaque variable d'une série double.
  • La fréquence est le rapport de l'effectif d'une modalité à l'effectif total (fi = ni/N).
  • Les fréquences peuvent être converties en pourcentages en les multipliant par 100.
  • L'intérêt des fréquences est de pouvoir se faire une idée de l'importance relative de chaque croisement de modalités.
  • La somme de chaque ligne ou de chaque colonne d'un tableau de fréquence doit toujours être égale à 1 (100% de l'effectif).
  • Les fréquences marginales sont obtenues par la somme des fréquences partielles.

Distributions Conditionnelles

  • Elles consistent à considérer uniquement une variable parmi les deux étudiées en fonction d'une modalité de l'autre variable, permettant d'étudier le comportement d'une variable lorsqu'une modalité de l'autre est fixée.
  • L'analyse peut se faire pour les effectifs ou pour les fréquences.
  • La modalité fixée sur un tableau de contingence correspond à ne regarder qu'une ligne ou une colonne unique (série conditionnelle ou profil).
    • La somme des fréquences de la série conditionnelle sera toujours égale à 1.
  • Les distributions conditionnelles permettent de répondre à des questions concernant la proportion d'une modalité en fonction d'une autre modalité.
  • Le tableau des profils en lignes est construit en divisant l’effectif de chaque case par le total de la ligne correspondante.
  • Le tableau des profils en colonnes se détermine en divisant l’effectif de chaque case par le total de la colonne correspondante.

Statistiques Conditionnelles

  • Toutes les données appartenant à une échelle numérique permettent également de calculer des indices statistiques de position et de dispersion conditionnels.
  • Elles correspondent à la moyenne (ou autre indice statistique) des effectifs à travers une des deux variables pour une modalité fixée de la seconde variable.

Liens entre variables

  • L'étude de plusieurs variables dépendantes permet de tester si elles sont reliées et d'étudier la liaison entre elles.
  • L'indépendance se traduit par des variations non liées entre les variables.
  • La connaissance de la valeur d'une variable n'informe pas sur la valeur de l'autre variable si elles sont indépendantes.
  • La taille est liée au poids, mais la taille est indépendante du QI.

Indépendance théorique

  • Une indépendance parfaite se traduit par des effectifs égaux dans les cases d'un tableau de contingence.
  • Cela signifie que les variations dans une variable n'affectent pas l'autre.
  • Une telle distribution n'est quasiment jamais observée, d'où le terme de distribution théorique.

Co-variance

  • Représente comment les données varient autour de la moyenne.
  • C'est la distance moyenne entre les valeurs d'une série et sa moyenne (écart moyen).
  • Le calcul de la variance consiste à soustraire la moyenne à chaque valeur, puis à mettre au carré chaque résultat.
    • s² = (1/N) * Σ(xi - x̄)²
  • Il existe une formule simplifiée : s² = (1/N * Σx²i) - x̄²
  • La covariance est la généralisation de la variance de une à deux variables dépendantes.
  • Les statistiques bivariées nécessitent de relever les deux mesures en même temps ou pour un même individu afin d'étudier les liaisons entre les variables.
  • La covariance se calcule en calculant la moyenne du produit des écarts de chaque série à sa moyenne
    • COV(X,Y) = sXY = (1/N) * Σ(xi - x̄)(yi - ȳ)
  • Il existe une formule simplifiée pour la covariance : COV(X, Y ) = sXY = (1/N * Σxiyi) - x̄ȳ
  • La création d'une nouvelle variable (X*Y = X × Y) facilite la compréhension.
  • La covariance peut être positive, négative ou nulle.
    • Nulle = les deux variables sont parfaitement indépendantes.
  • Positive = quand les valeurs de X augmentent, les valeurs de Y tendent à augmenter également.
  • Négative = quand les valeurs de X augmentent, les valeurs de Y tendent à diminuer.
  • La covariance de l'anxiété et de la dépression pour les patients vaut 3.16, ce qui signifie que si un patient rapporte un haut niveau d'anxiété, il tend à rapporter un haut niveau de dépression.
  • La covariance ne peut se déterminer que pour des données numériques.
  • Il faut soustraire 1 à N au dénominateur pour les calculs appliqués à des échantillons.
    • Plus la taille d’échantillon est importante, moins l’écart avec la population sera significatif.
  • La variance ne s'interprète pas directement; il faut passer par l'écart-type
  • Il faut passer par le cœfficient de corrélation pour l'interprétation de la covariance.

Diagramme de dispersion

  • Aussi appelé nuage de points, sert à observer comment se répartissent les observations en fonction de deux variables (X et Y ).
  • Chaque observation est représentée par les valeurs obtenues pour chaque variable.
  • La forme du nuage de points révèle la relation entre les variables.
  • Une forme patatoïdale traduit une absence globale de lien, puisque les valeurs d'une variable ne semblent pas affecter celles de l'autre.
  • Une ligne droite horizontale (ou verticale) indique également l'absence de relation.
  • Une ligne montante ou descendante suggère une relation linéaire entre les variables.

Corrélation linéaire

  • La corrélation ramène la covariance dans un espace normé de -1 à +1.
  • Cela permet de comparer directement des associations entre elles.
  • Une corrélation ne signifie pas un lien causal.
  • Exemples de corrélations :
    • Plus les divorces diminuent, moins il se mange de margarine.
    • Plus les ventes de voitures allemandes augmentent, plus il y a de suicides par accident de voiture.
    • Plus miss America est jeune, plus les meurtres diminuent.
    • Plus les gens achètent d’Iphone, plus il y a de chutes mortelles dans les escaliers.
  • Le cœfficient de corrélation linéaire est noté r.
  • Il est compris entre -1 et 1 et correspond à la pente de la droite qui passerait par l'ensemble des points.
  • Une corrélation est forte quand elle est comprise entre |0,5| et |1|, et faible entre |0| et |0,5|.
  • Pour une corrélation positive (r > 0), les deux variables varient dans le même sens. Pour une corrélation négative (r < 0), elles varient dans des sens opposés.
  • Calcul du cœfficient de corrélation en normalisant la covariance par rapport à l'écart-type: r = COV (X,Y ) / (Sx Sy)
  • Le cœfficient de corrélation linéaire est appelé cœfficient de Pearson. Il existe également des cœfficient de relation non-linéaire comme le rho (ρ) de Spearman.

Prédiction

  • L'étude des liaisons entre les variables sert à prédire les valeurs d'une variable à partir de la connaissance de l'autre.
  • L'intérêt est de généraliser l'association pour aller au-delà des observations réellement effectuées.

Droite de Régression

  • Pour les relations linéaires, elle "représente" au mieux le nuage de points en minimisant les écarts entre chaque point et la droite.
  • Les écarts sont appelés "résidus".
  • Il faut distinguer deux droites de régressions possibles selon que l’on cherche à minimiser les différences entre la droite de régression et les valeurs de X ou avec les valeurs de Y.
  • Il s'agit conceptuellement de l'erreur de l'adéquation de la droite aux données réelles.
  • Équation d'une droite : y = ax + b

L'erreur Type

  • Les équations des droites de régression simplifient la réalité, car elles ne tiennent pas compte de l'erreur des résidus.
  • Le calcul des paramètres (a et b) est une estimation de valeur probable et non une détermination de valeur réelle.
  • Cette erreur est appelée erreur type ou erreur standard.
  • L'erreur type trouve son origine dans la distribution d'échantillonnage.
  • Les indices statistiques déterminés pour un échantillon ne sont que très rarement équivalents aux valeurs réelles qui seraient observées pour la population.
  • Plus l'échantillon est important, moins l'erreur sera grande.

Équation de la Droite de Régression

  • On utilise la méthode des moindres carrés.
  • Calcul du cœfficient directeur (a): a = COV (X,Y ) / s²x
  • Le calcul du terme constant (b) est possible par simple résolution d’équation du premier degré:b = y − ax
  • Il faut connaître un point de la droite, tel que G, centre de gravité du nuage de point. G représente le point au croisement de la moyenne de X et de la moyenne de Y , soit G(x̄; ȳ).
  • Il est possible d'estimer des valeurs qui n'ont pas été observées une fois l'équation de la droite déterminée:
  • une valeur de Y sachant une valeur de X : y = ax + b
  • une valeur de X sachant une valeur de Y : x = (y-b)/a
  • tracer la droite de régression en utilisant deux points lui appartenant.
  • En réalité, les équations devraient s’écrire : y = ax + b + Er, où Er représente l’erreur résiduelle (erreur de prédiction).

Prédiction sans Prédicteur

  • L'utilisation d'une régression n'est pas toujours possible.
  • Lorsque une seule variable est étudiée ou qu'il n'existe pas de relation forte entre les variables disponibles.
  • Permet de résoudre le problème des données manquantes.
  • Dans ces situations, la meilleure solution est d'utiliser la moyenne de la série considérée.
  • Choisir n'importe quelle autre valeur que la moyenne augmente le risque de se tromper davantage par rapport à la valeur qui serait réellement observée.
  • Utiliser la moyenne, c'est choisir la valeur qui aura le moins d'incidence sur la série statistique étudiée.
  • L'objectif d'une prédiction reste d'être au plus près de la réalité de l'observation visée.
  • Si plusieurs variables sont disponibles, il faut utiliser la série considérée mais en tenant compte des éventuels sous-groupes (série conditionnelle).

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Rappels statistiques L1S1 PDF
Statistiques 2 (L1S2) - PDF

More Like This

Measurement Scales: Nominal & Ordinal
13 questions
Livelli di misurazione: nominale, ordinale
48 questions
Use Quizgecko on...
Browser
Browser