Podcast
Questions and Answers
Quelle échelle de mesure est constituée d'éléments qui ne sont pas quantitatifs et n'ont pas de rapport d'ordre entre eux ?
Quelle échelle de mesure est constituée d'éléments qui ne sont pas quantitatifs et n'ont pas de rapport d'ordre entre eux ?
- Échelle ordinale
- Échelle d'intervalle
- Échelle nominale (correct)
- Échelle numérique
Dans une échelle ordinale, quelle propriété est absente, ce qui la distingue des échelles numériques ?
Dans une échelle ordinale, quelle propriété est absente, ce qui la distingue des échelles numériques ?
- L'intervalle constant entre les éléments (correct)
- Incapacité à classer les éléments
- Impossibilité de calculer des pourcentages
- Absence de catégories définies
Quelle caractéristique distingue une échelle numérique relative (ou d'intervalle) d'une échelle numérique absolue (ou de rapport) ?
Quelle caractéristique distingue une échelle numérique relative (ou d'intervalle) d'une échelle numérique absolue (ou de rapport) ?
- La présence d'un zéro arbitraire (correct)
- L'absence d'unité de mesure
- L'impossibilité de calculer la moyenne
- La présence d'un zéro absolu
Si une série de données a plusieurs modes, comment est-elle décrite ?
Si une série de données a plusieurs modes, comment est-elle décrite ?
Qu'est-ce que représente le mode dans une distribution groupée par intervalles, en tenant compte des différentes longueurs des intervalles ?
Qu'est-ce que représente le mode dans une distribution groupée par intervalles, en tenant compte des différentes longueurs des intervalles ?
Qu'est-ce que les quantiles permettent de faire avec une série statistique ?
Qu'est-ce que les quantiles permettent de faire avec une série statistique ?
Pour quelles échelles de mesure est-il approprié de déterminer les quantiles ?
Pour quelles échelles de mesure est-il approprié de déterminer les quantiles ?
Quelle est la principale différence entre la moyenne et la médiane en termes de sensibilité aux valeurs extrêmes ?
Quelle est la principale différence entre la moyenne et la médiane en termes de sensibilité aux valeurs extrêmes ?
Comment est définie l'étendue dans une série de données statistiques ?
Comment est définie l'étendue dans une série de données statistiques ?
Que représente l'intervalle interquartile [Q1; Q3] ?
Que représente l'intervalle interquartile [Q1; Q3] ?
Comment calcule-t-on les positions des quartiles Q1 et Q3 dans une série de données, étant donné un effectif total N ?
Comment calcule-t-on les positions des quartiles Q1 et Q3 dans une série de données, étant donné un effectif total N ?
Si l'intervalle interquartile contient environ la moitié des observations, comment sont réparties les observations qui ne sont pas incluses dans cet intervalle ?
Si l'intervalle interquartile contient environ la moitié des observations, comment sont réparties les observations qui ne sont pas incluses dans cet intervalle ?
Quelle est la définition de la variance dans une série statistique ?
Quelle est la définition de la variance dans une série statistique ?
Quelle est la relation entre l'écart-type et la variance ?
Quelle est la relation entre l'écart-type et la variance ?
Dans quelles conditions la variance d'une série de nombres est-elle égale à zéro ?
Dans quelles conditions la variance d'une série de nombres est-elle égale à zéro ?
Quelle est la principale nouveauté du second semestre par rapport au premier dans le contexte de ce cours de statistiques ?
Quelle est la principale nouveauté du second semestre par rapport au premier dans le contexte de ce cours de statistiques ?
Dans le cadre de l'analyse statistique, quel terme est utilisé pour désigner l'étude de plusieurs variables dépendantes simultanément ?
Dans le cadre de l'analyse statistique, quel terme est utilisé pour désigner l'étude de plusieurs variables dépendantes simultanément ?
Quelle est la définition correcte d'un tableau de contingence ?
Quelle est la définition correcte d'un tableau de contingence ?
Dans un tableau de contingence, que représentent généralement les lignes et les colonnes ?
Dans un tableau de contingence, que représentent généralement les lignes et les colonnes ?
Qu'est-ce qu'un effectif partiel dans un tableau de contingence ?
Qu'est-ce qu'un effectif partiel dans un tableau de contingence ?
Quel est l'avantage principal de regrouper les données brutes dans un tableau de contingence ?
Quel est l'avantage principal de regrouper les données brutes dans un tableau de contingence ?
Lors de la création d'un tableau de contingence, que représente le total des effectifs marginaux de X ?
Lors de la création d'un tableau de contingence, que représente le total des effectifs marginaux de X ?
Quelle est la définition d'une fréquence dans un tableau de distribution de fréquences ?
Quelle est la définition d'une fréquence dans un tableau de distribution de fréquences ?
Comment convertit-on une fréquence en pourcentage ?
Comment convertit-on une fréquence en pourcentage ?
Quel est l'intérêt principal de déterminer les fréquences dans un tableau de contingence ?
Quel est l'intérêt principal de déterminer les fréquences dans un tableau de contingence ?
Dans un tableau de fréquences, à quoi doit être égale la somme de chaque ligne ou de chaque colonne ?
Dans un tableau de fréquences, à quoi doit être égale la somme de chaque ligne ou de chaque colonne ?
Que représentent les fréquences marginales ?
Que représentent les fréquences marginales ?
Quelle est la définition d'une distribution conditionnelle ?
Quelle est la définition d'une distribution conditionnelle ?
Dans un tableau de contingence, comment fixe-t-on une modalité pour étudier une distribution conditionnelle ?
Dans un tableau de contingence, comment fixe-t-on une modalité pour étudier une distribution conditionnelle ?
Comment appelle-t-on une ligne ou une colonne particulière d'un tableau de contingence utilisée pour étudier une distribution conditionnelle ?
Comment appelle-t-on une ligne ou une colonne particulière d'un tableau de contingence utilisée pour étudier une distribution conditionnelle ?
À quelle question les distributions conditionnelles permettent-elles de répondre ?
À quelle question les distributions conditionnelles permettent-elles de répondre ?
Dans l'analyse des distributions conditionnelles avec les fréquences, qu'est-ce qui est pris en compte au lieu de l'effectif total (N) ?
Dans l'analyse des distributions conditionnelles avec les fréquences, qu'est-ce qui est pris en compte au lieu de l'effectif total (N) ?
Dans quel cas la somme des fréquences de la série conditionnelle sera-t-elle toujours égale à 1 ?
Dans quel cas la somme des fréquences de la série conditionnelle sera-t-elle toujours égale à 1 ?
Comment construit-on un tableau de profils en lignes ?
Comment construit-on un tableau de profils en lignes ?
Si l'on souhaite examiner le niveau moyen de dépression pour les patients ayant un score d'anxiété de 9, quel type de statistique calcule-t-on ?
Si l'on souhaite examiner le niveau moyen de dépression pour les patients ayant un score d'anxiété de 9, quel type de statistique calcule-t-on ?
Qu'est-ce qui rend possible le calcul des statistiques conditionnelles de position et de dispersion ?
Qu'est-ce qui rend possible le calcul des statistiques conditionnelles de position et de dispersion ?
Comment calcule-t-on une statistique conditionnelle telle que la moyenne ?
Comment calcule-t-on une statistique conditionnelle telle que la moyenne ?
Quel est le principal objectif de l'utilisation des données dans Jamovi ?
Quel est le principal objectif de l'utilisation des données dans Jamovi ?
Si un chercheur utilise Jamovi pour la première fois, quelles ressources seraient les plus utiles pour débuter ?
Si un chercheur utilise Jamovi pour la première fois, quelles ressources seraient les plus utiles pour débuter ?
Pourquoi le cours met-il l'accent sur l'utilisation de Jamovi en complément d'un tableur comme LibreOffice Calc ?
Pourquoi le cours met-il l'accent sur l'utilisation de Jamovi en complément d'un tableur comme LibreOffice Calc ?
Quelles sont les caractéristiques de la licence sous laquelle le matériel du cours est mis à disposition ?
Quelles sont les caractéristiques de la licence sous laquelle le matériel du cours est mis à disposition ?
Où peut-on trouver une copie de la licence mentionnée pour le matériel du cours ?
Où peut-on trouver une copie de la licence mentionnée pour le matériel du cours ?
Qu'est-ce qui est autorisé selon les termes de la licence du cours, en dehors du partage et de la copie du matériel ?
Qu'est-ce qui est autorisé selon les termes de la licence du cours, en dehors du partage et de la copie du matériel ?
Quelles sont les conditions à respecter lors du partage de matériel modifié du cours ?
Quelles sont les conditions à respecter lors du partage de matériel modifié du cours ?
Lorsque l'on étudie la liaison entre deux variables, que signifie une parfaite indépendance entre elles ?
Lorsque l'on étudie la liaison entre deux variables, que signifie une parfaite indépendance entre elles ?
Dans le contexte de l'étude de la covariance, pourquoi est-il nécessaire de relever les deux mesures (pour deux variables) en même temps ou pour le même individu ?
Dans le contexte de l'étude de la covariance, pourquoi est-il nécessaire de relever les deux mesures (pour deux variables) en même temps ou pour le même individu ?
Quelle est la principale différence entre le calcul de la variance et celui de la covariance ?
Quelle est la principale différence entre le calcul de la variance et celui de la covariance ?
Comment interprétez-vous une covariance nulle entre deux variables ?
Comment interprétez-vous une covariance nulle entre deux variables ?
Que représente un diagramme de dispersion dans l'analyse de deux variables ?
Que représente un diagramme de dispersion dans l'analyse de deux variables ?
Comment décririez-vous la forme d'un nuage de points qui suggère une absence globale de lien entre deux variables ?
Comment décririez-vous la forme d'un nuage de points qui suggère une absence globale de lien entre deux variables ?
Dans un diagramme de dispersion, quel type de relation est suggéré si les points se distribuent le long d'une ligne droite montante ?
Dans un diagramme de dispersion, quel type de relation est suggéré si les points se distribuent le long d'une ligne droite montante ?
Quelle est la principale utilité de la corrélation linéaire ?
Quelle est la principale utilité de la corrélation linéaire ?
Quelle est la plage de valeurs possibles pour le coefficient de corrélation linéaire 'r' ?
Quelle est la plage de valeurs possibles pour le coefficient de corrélation linéaire 'r' ?
Comment interprétez-vous un coefficient de corrélation linéaire positif ?
Comment interprétez-vous un coefficient de corrélation linéaire positif ?
Quelle information supplémentaire est nécessaire pour calculer le coefficient de corrélation linéaire, une fois que la covariance entre deux variables est connue ?
Quelle information supplémentaire est nécessaire pour calculer le coefficient de corrélation linéaire, une fois que la covariance entre deux variables est connue ?
Dans le contexte de la prédiction statistique, que représente la droite de régression ?
Dans le contexte de la prédiction statistique, que représente la droite de régression ?
Qu'est-ce que le "résidu" dans le contexte de la droite de régression ?
Qu'est-ce que le "résidu" dans le contexte de la droite de régression ?
Dans l'équation de la droite de régression y = ax + b, que représente le terme 'b' ?
Dans l'équation de la droite de régression y = ax + b, que représente le terme 'b' ?
Par convention, laquelle des variables (X ou Y) représente la variable que l'on cherche à prédire dans une analyse de régression ?
Par convention, laquelle des variables (X ou Y) représente la variable que l'on cherche à prédire dans une analyse de régression ?
Qu'est-ce que l'erreur type dans le contexte de la régression linéaire ?
Qu'est-ce que l'erreur type dans le contexte de la régression linéaire ?
Comment peut-on calculer la valeur de 'b' (l'ordonnée à l'origine) dans l'équation de la droite de régression une fois 'a' (la pente) connue ?
Comment peut-on calculer la valeur de 'b' (l'ordonnée à l'origine) dans l'équation de la droite de régression une fois 'a' (la pente) connue ?
Dans une situation où il est impossible d'utiliser une régression pour prédire une valeur, quelle est la meilleure alternative pour résoudre le problème des données manquantes ?
Dans une situation où il est impossible d'utiliser une régression pour prédire une valeur, quelle est la meilleure alternative pour résoudre le problème des données manquantes ?
Dans le cas d'une prédiction sans prédicteur, comment l'utilisation de la moyenne aide-t-elle à « résumer » la série statistique ?
Dans le cas d'une prédiction sans prédicteur, comment l'utilisation de la moyenne aide-t-elle à « résumer » la série statistique ?
Dans une situation où vous devez prédire une donnée manquante et que vous disposez d'informations sur des sous-groupes (série conditionnelle), quelle approche est la plus appropriée ?
Dans une situation où vous devez prédire une donnée manquante et que vous disposez d'informations sur des sous-groupes (série conditionnelle), quelle approche est la plus appropriée ?
Quelle conclusion peut-on tirer si l'on constate que l'application de l'équation de la droite de régression linéaire conduit à des résultats incohérents ?
Quelle conclusion peut-on tirer si l'on constate que l'application de l'équation de la droite de régression linéaire conduit à des résultats incohérents ?
Quelle est l'influence de la taille de l'échantillon sur l'erreur d'échantillonnage dans l'estimation des paramètres d'une droite de régression ?
Quelle est l'influence de la taille de l'échantillon sur l'erreur d'échantillonnage dans l'estimation des paramètres d'une droite de régression ?
Pour des valeurs non numériques, que peut-on faire d'autre pour calculer des liaisons entre deux variables ?
Pour des valeurs non numériques, que peut-on faire d'autre pour calculer des liaisons entre deux variables ?
Quand est-ce qu'il faut exclure les valeurs orphelines pour calculer les différents indices (covariance, variance...) ?
Quand est-ce qu'il faut exclure les valeurs orphelines pour calculer les différents indices (covariance, variance...) ?
Quel indice statistique peut-on utiliser dans une série simple avec des données manquantes ?
Quel indice statistique peut-on utiliser dans une série simple avec des données manquantes ?
Que représentent le a et le b dans la droite de régression linéaire ?
Que représentent le a et le b dans la droite de régression linéaire ?
Quel est une description qui correspond à une série conditionnelle ?
Quel est une description qui correspond à une série conditionnelle ?
Vrai ou Faux : Une corrélation ne signifie pas un lien causal.
Vrai ou Faux : Une corrélation ne signifie pas un lien causal.
Quel terme décrit le mieux l'erreur entre les points réels et la droite de régression ?
Quel terme décrit le mieux l'erreur entre les points réels et la droite de régression ?
Supposons qu'un diagramme de dispersion révèle une relation non linéaire. Comment décririez-vous la disposition des données, en particulier en référence au sens directionnel ?
Supposons qu'un diagramme de dispersion révèle une relation non linéaire. Comment décririez-vous la disposition des données, en particulier en référence au sens directionnel ?
Dans la droite de régression linéaire, laquelle des options suivantes correspond au cœfficient directeur de la droite ?
Dans la droite de régression linéaire, laquelle des options suivantes correspond au cœfficient directeur de la droite ?
En utilisant l'équation calculée pour la capacité de lecture selon le temps de lecture à la maison, quelle serait la capacité probable de lecture d'un enfant lisant en moyenne 4 heures à la maison ?
En utilisant l'équation calculée pour la capacité de lecture selon le temps de lecture à la maison, quelle serait la capacité probable de lecture d'un enfant lisant en moyenne 4 heures à la maison ?
L'utilisation ou le calcul de quoi peut vous aider à tracer la droite de régression ?
L'utilisation ou le calcul de quoi peut vous aider à tracer la droite de régression ?
La droite régresse les différences. D'où vient son nom ?
La droite régresse les différences. D'où vient son nom ?
Pour lier chaque couple de données, quelle opération faut-il faire ?
Pour lier chaque couple de données, quelle opération faut-il faire ?
Les résultats que vous obtiendrez en utilisant ces formules correspondent à quoi ?
Les résultats que vous obtiendrez en utilisant ces formules correspondent à quoi ?
Quand dit-on qu'une corrélation est dite positive ?
Quand dit-on qu'une corrélation est dite positive ?
Si la covariance entre deux variables est positive, qu'est-ce que cela indique quant à la relation entre leurs valeurs ?
Si la covariance entre deux variables est positive, qu'est-ce que cela indique quant à la relation entre leurs valeurs ?
Dans le contexte de l'analyse de données, pourquoi est-il important de relever simultanément les mesures pour deux variables lors du calcul de la covariance?
Dans le contexte de l'analyse de données, pourquoi est-il important de relever simultanément les mesures pour deux variables lors du calcul de la covariance?
Quelle est l'interprétation correcte d'une covariance nulle entre deux variables X et Y ?
Quelle est l'interprétation correcte d'une covariance nulle entre deux variables X et Y ?
Comment la forme d'un nuage de points dans un diagramme de dispersion peut-elle aider à identifier la relation entre deux variables ?
Comment la forme d'un nuage de points dans un diagramme de dispersion peut-elle aider à identifier la relation entre deux variables ?
Si, dans un diagramme de dispersion, les points se répartissent le long d'une ligne droite descendante, quelle conclusion peut-on en tirer concernant la relation entre les variables ?
Si, dans un diagramme de dispersion, les points se répartissent le long d'une ligne droite descendante, quelle conclusion peut-on en tirer concernant la relation entre les variables ?
Quelle est la principale utilité du coefficient de corrélation linéaire dans l'analyse statistique ?
Quelle est la principale utilité du coefficient de corrélation linéaire dans l'analyse statistique ?
Une fois que la covariance entre deux variables est connue, quelle information supplémentaire est nécessaire pour calculer le coefficient de corrélation linéaire ?
Une fois que la covariance entre deux variables est connue, quelle information supplémentaire est nécessaire pour calculer le coefficient de corrélation linéaire ?
Dans l'équation de la droite de régression linéaire y = ax + b, que représente le coefficient 'a' ?
Dans l'équation de la droite de régression linéaire y = ax + b, que représente le coefficient 'a' ?
Dans une analyse de régression, laquelle des variables, X ou Y, représente typiquement la variable que l'on cherche à prédire ?
Dans une analyse de régression, laquelle des variables, X ou Y, représente typiquement la variable que l'on cherche à prédire ?
Si l'application de l'équation de la droite de régression linéaire conduit à des résultats incohérents, quelle conclusion peut-on en tirer ?
Si l'application de l'équation de la droite de régression linéaire conduit à des résultats incohérents, quelle conclusion peut-on en tirer ?
Flashcards
Qu'est-ce qu'une échelle nominale ?
Qu'est-ce qu'une échelle nominale ?
Une échelle où les éléments ne sont pas quantitatifs et n'ont pas de rapport d'ordre.
Qu'est-ce qu'une échelle ordinale ?
Qu'est-ce qu'une échelle ordinale ?
Une échelle où les éléments ont une relation d'ordre, mais pas d'intervalles égaux.
Qu'est-ce qu'une échelle numérique ?
Qu'est-ce qu'une échelle numérique ?
Une échelle où les éléments ont une relation d'ordre et des intervalles constants.
Qu'est-ce que le mode ?
Qu'est-ce que le mode ?
Signup and view all the flashcards
Que sont les quantiles ?
Que sont les quantiles ?
Signup and view all the flashcards
Qu'est-ce que la médiane ?
Qu'est-ce que la médiane ?
Signup and view all the flashcards
Qu'est-ce que la moyenne ?
Qu'est-ce que la moyenne ?
Signup and view all the flashcards
Qu'est-ce que l'étendue ?
Qu'est-ce que l'étendue ?
Signup and view all the flashcards
Qu'est-ce que l'intervalle interquartile ?
Qu'est-ce que l'intervalle interquartile ?
Signup and view all the flashcards
Qu'est-ce que la variance ?
Qu'est-ce que la variance ?
Signup and view all the flashcards
Qu'est-ce que l'écart-type ?
Qu'est-ce que l'écart-type ?
Signup and view all the flashcards
Qu'est-ce que la fréquence ?
Qu'est-ce que la fréquence ?
Signup and view all the flashcards
Qu'est-ce qu'un intervalle/classe ?
Qu'est-ce qu'un intervalle/classe ?
Signup and view all the flashcards
Qu'est-ce que le centre de classe ?
Qu'est-ce que le centre de classe ?
Signup and view all the flashcards
Qu'est ce qu'une variable dépendante ?
Qu'est ce qu'une variable dépendante ?
Signup and view all the flashcards
Qu'est-ce qu'un tableau de contingence ?
Qu'est-ce qu'un tableau de contingence ?
Signup and view all the flashcards
Qu'est-ce qu'un effectif partiel ?
Qu'est-ce qu'un effectif partiel ?
Signup and view all the flashcards
Tableau de distribution de fréquences
Tableau de distribution de fréquences
Signup and view all the flashcards
Définition fréquences marginales
Définition fréquences marginales
Signup and view all the flashcards
Distribution conditionnelle
Distribution conditionnelle
Signup and view all the flashcards
Qu'est-ce qu'un effectif ?
Qu'est-ce qu'un effectif ?
Signup and view all the flashcards
A quoi sert une distribution conditionnelle
?
A quoi sert une distribution conditionnelle ?
Signup and view all the flashcards
Qu'est-ce qu'une liaison entre variables?
Qu'est-ce qu'une liaison entre variables?
Signup and view all the flashcards
Qu'est-ce que l'indépendance théorique ?
Qu'est-ce que l'indépendance théorique ?
Signup and view all the flashcards
Qu'est-ce qu'un diagramme de dispersion ?
Qu'est-ce qu'un diagramme de dispersion ?
Signup and view all the flashcards
Qu'est-ce que la corrélation linéaire ?
Qu'est-ce que la corrélation linéaire ?
Signup and view all the flashcards
Qu'est-ce qu'une droite de régression ?
Qu'est-ce qu'une droite de régression ?
Signup and view all the flashcards
Qu'est-ce que le résidu ?
Qu'est-ce que le résidu ?
Signup and view all the flashcards
Qu'est-ce qu'une variable prédictrice ?
Qu'est-ce qu'une variable prédictrice ?
Signup and view all the flashcards
Qu'est ce que l'erreur type ?
Qu'est ce que l'erreur type ?
Signup and view all the flashcards
Prédiction sans prédicteur ?
Prédiction sans prédicteur ?
Signup and view all the flashcards
Study Notes
- Ce cours poursuit l'objectif du premier semestre en ajoutant un deuxième caractère, se concentrant sur les relations entre ces caractères, notamment via l'étude des corrélations et régressions.
- Le concept de distribution conditionnelle permet d'étudier le comportement d'une variable en fonction d'une modalité fixée de l'autre variable.
- En d'autres termes, cela permet de regarder chaque ligne du tableau de contingence à travers les colonnes.
- Pour les exercices, l'arrondissement à deux chiffres après la virgule est recommandé.
- Ce cours est enseigné par Guillaume Vallet à l'Université Clermont Auvergne (U.F.R. de Psychologie, Sciences Sociales et Sciences de l’Éducation).
Licence de ce Cours
- Ce travail est sous licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France.
- Il est permis partager, copier, distribuer et communiquer le matériel, et de l'adapter (remixer, transformer, créer).
- L'attribution de l'œuvre est obligatoire avec indication des modifications effectuées.
- L'utilisation commerciale de l'œuvre est interdite.
- Le partage de l'œuvre modifiée doit se faire sous la même licence que l'œuvre originale.
- Aucune restriction légale ou technique ne doit empêcher l'utilisation de l'œuvre selon les termes de la licence.
Objectifs du Cours
- Étendre les concepts statistiques à une série statistique double (deux variables).
- Étudier l'indépendance et la relation entre deux variables (profils, covariance, corrélation).
- Prédire des valeurs en l'absence (ou en présence) d'un prédicteur (régression conditionnelle, linéaire et non linéaire).
- Comprendre l'erreur-type d'estimation et le pourcentage de variance expliquée.
- Produire graphiques et calculs avec un tableur et un logiciel de statistiques.
Logiciel JAMOVI
- Le logiciel d’analyse statistique utilisé est JAMOVI, gratuit, libre, et multiplateforme (https://www.jamovi.org/).
- JAMOVI offre une alternative moderne et intuitive aux logiciels comme SPSS ou Statistica.
- Des ressources additionnelles, comme le guide d'utilisateur officiel (en anglais), une chaîne YouTube de tutoriels, et la liste des ressources de la communauté JAMOVI sont disponibles.
- La dernière version utilisée pour ce cours est la 1.6.9, mais des différences peuvent être constatées avec les versions mises à jour.
Série statistique double
- Une série statistique double implique l'étude conjointe de deux variables dépendantes, obtenues auprès du même échantillon.
- L'introduction d'une seconde variable permet d'examiner les relations entre les variables.
- La terminologie statistique inclut les statistiques univariées (une variable), bivariées (deux variables), et multivariées (plusieurs variables).
- Les données peuvent être de différents types, mais les données numériques sont privilégiées dans ce cours.
- Par convention, les deux séries sont désignées par les lettres X et Y, et les valeurs observées pour un individu sont notées xi et yi.
Tableau de contingence - Explications
- Le tableau de contingence est un tableau à double entrée croisant les données de deux variables.
- Les données peuvent être groupées par modalité de chaque caractère, ou par intervalles pour l'un ou les deux.
- Le tableau peut présenter les effectifs ou les fréquences.
- Les modalités de X sont en lignes et celles de Y en colonnes, le choix des caractères X et Y est libre.
- Des vidéos explicatives sur le tableau de contingence et les distributions conditionnelles sont disponibles sur YouTube.
Données groupées pour des effectifs
- Les données brutes sont regroupées en rapportant le nombre d'observations appartenant à chaque modalité.
- Le nombre de participants qui ont pour valeurs xi et yj est ni,j.
- Un effectif partiel renvoie à l'effectif d'une case particulièrement (n2,3 par exemple).
Distributions Marginales - Explications
- Le tableau de contingence permet d’étudier séparément ou conjointement les deux variables dépendantes.
- La distribution marginale est le compte des effectifs par ligne et par colonne.
- ni,. = ni,1 + ni,2 + ... + ni,q représente l'effectif total dans la modalité xi, soit la somme des effectifs de la ligne.
- n.,j = n1,j + n2,j + ... + np,j représente l'effectif total dans la modalité yj, soit la somme des effectifs de la colonne.
- N = n1,1 + n1,2 + ... + np,q représente l'effectif total, soit la somme de tous les effectifs.
- La somme des effectifs marginaux de X et de Y est égal à N.
Tableau de distribution de fréquences pour deux variables
- Comme avec les tableaux de contingence des effectifs, il est possible de déterminer les fréquences relatives de chaque modalité de chaque variable d'une série double.
- La fréquence est le rapport de l'effectif d'une modalité à l'effectif total (fi = ni/N).
- Les fréquences peuvent être converties en pourcentages en les multipliant par 100.
- L'intérêt des fréquences est de pouvoir se faire une idée de l'importance relative de chaque croisement de modalités.
- La somme de chaque ligne ou de chaque colonne d'un tableau de fréquence doit toujours être égale à 1 (100% de l'effectif).
- Les fréquences marginales sont obtenues par la somme des fréquences partielles.
Distributions Conditionnelles
- Elles consistent à considérer uniquement une variable parmi les deux étudiées en fonction d'une modalité de l'autre variable, permettant d'étudier le comportement d'une variable lorsqu'une modalité de l'autre est fixée.
- L'analyse peut se faire pour les effectifs ou pour les fréquences.
- La modalité fixée sur un tableau de contingence correspond à ne regarder qu'une ligne ou une colonne unique (série conditionnelle ou profil).
- La somme des fréquences de la série conditionnelle sera toujours égale à 1.
- Les distributions conditionnelles permettent de répondre à des questions concernant la proportion d'une modalité en fonction d'une autre modalité.
- Le tableau des profils en lignes est construit en divisant l’effectif de chaque case par le total de la ligne correspondante.
- Le tableau des profils en colonnes se détermine en divisant l’effectif de chaque case par le total de la colonne correspondante.
Statistiques Conditionnelles
- Toutes les données appartenant à une échelle numérique permettent également de calculer des indices statistiques de position et de dispersion conditionnels.
- Elles correspondent à la moyenne (ou autre indice statistique) des effectifs à travers une des deux variables pour une modalité fixée de la seconde variable.
Liens entre variables
- L'étude de plusieurs variables dépendantes permet de tester si elles sont reliées et d'étudier la liaison entre elles.
- L'indépendance se traduit par des variations non liées entre les variables.
- La connaissance de la valeur d'une variable n'informe pas sur la valeur de l'autre variable si elles sont indépendantes.
- La taille est liée au poids, mais la taille est indépendante du QI.
Indépendance théorique
- Une indépendance parfaite se traduit par des effectifs égaux dans les cases d'un tableau de contingence.
- Cela signifie que les variations dans une variable n'affectent pas l'autre.
- Une telle distribution n'est quasiment jamais observée, d'où le terme de distribution théorique.
Co-variance
- Représente comment les données varient autour de la moyenne.
- C'est la distance moyenne entre les valeurs d'une série et sa moyenne (écart moyen).
- Le calcul de la variance consiste à soustraire la moyenne à chaque valeur, puis à mettre au carré chaque résultat.
- s² = (1/N) * Σ(xi - x̄)²
- Il existe une formule simplifiée : s² = (1/N * Σx²i) - x̄²
- La covariance est la généralisation de la variance de une à deux variables dépendantes.
- Les statistiques bivariées nécessitent de relever les deux mesures en même temps ou pour un même individu afin d'étudier les liaisons entre les variables.
- La covariance se calcule en calculant la moyenne du produit des écarts de chaque série à sa moyenne
- COV(X,Y) = sXY = (1/N) * Σ(xi - x̄)(yi - ȳ)
- Il existe une formule simplifiée pour la covariance : COV(X, Y ) = sXY = (1/N * Σxiyi) - x̄ȳ
- La création d'une nouvelle variable (X*Y = X × Y) facilite la compréhension.
- La covariance peut être positive, négative ou nulle.
- Nulle = les deux variables sont parfaitement indépendantes.
- Positive = quand les valeurs de X augmentent, les valeurs de Y tendent à augmenter également.
- Négative = quand les valeurs de X augmentent, les valeurs de Y tendent à diminuer.
- La covariance de l'anxiété et de la dépression pour les patients vaut 3.16, ce qui signifie que si un patient rapporte un haut niveau d'anxiété, il tend à rapporter un haut niveau de dépression.
- La covariance ne peut se déterminer que pour des données numériques.
- Il faut soustraire 1 à N au dénominateur pour les calculs appliqués à des échantillons.
- Plus la taille d’échantillon est importante, moins l’écart avec la population sera significatif.
- La variance ne s'interprète pas directement; il faut passer par l'écart-type
- Il faut passer par le cœfficient de corrélation pour l'interprétation de la covariance.
Diagramme de dispersion
- Aussi appelé nuage de points, sert à observer comment se répartissent les observations en fonction de deux variables (X et Y ).
- Chaque observation est représentée par les valeurs obtenues pour chaque variable.
- La forme du nuage de points révèle la relation entre les variables.
- Une forme patatoïdale traduit une absence globale de lien, puisque les valeurs d'une variable ne semblent pas affecter celles de l'autre.
- Une ligne droite horizontale (ou verticale) indique également l'absence de relation.
- Une ligne montante ou descendante suggère une relation linéaire entre les variables.
Corrélation linéaire
- La corrélation ramène la covariance dans un espace normé de -1 à +1.
- Cela permet de comparer directement des associations entre elles.
- Une corrélation ne signifie pas un lien causal.
- Exemples de corrélations :
- Plus les divorces diminuent, moins il se mange de margarine.
- Plus les ventes de voitures allemandes augmentent, plus il y a de suicides par accident de voiture.
- Plus miss America est jeune, plus les meurtres diminuent.
- Plus les gens achètent d’Iphone, plus il y a de chutes mortelles dans les escaliers.
- Le cœfficient de corrélation linéaire est noté r.
- Il est compris entre -1 et 1 et correspond à la pente de la droite qui passerait par l'ensemble des points.
- Une corrélation est forte quand elle est comprise entre |0,5| et |1|, et faible entre |0| et |0,5|.
- Pour une corrélation positive (r > 0), les deux variables varient dans le même sens. Pour une corrélation négative (r < 0), elles varient dans des sens opposés.
- Calcul du cœfficient de corrélation en normalisant la covariance par rapport à l'écart-type: r = COV (X,Y ) / (Sx Sy)
- Le cœfficient de corrélation linéaire est appelé cœfficient de Pearson. Il existe également des cœfficient de relation non-linéaire comme le rho (ρ) de Spearman.
Prédiction
- L'étude des liaisons entre les variables sert à prédire les valeurs d'une variable à partir de la connaissance de l'autre.
- L'intérêt est de généraliser l'association pour aller au-delà des observations réellement effectuées.
Droite de Régression
- Pour les relations linéaires, elle "représente" au mieux le nuage de points en minimisant les écarts entre chaque point et la droite.
- Les écarts sont appelés "résidus".
- Il faut distinguer deux droites de régressions possibles selon que l’on cherche à minimiser les différences entre la droite de régression et les valeurs de X ou avec les valeurs de Y.
- Il s'agit conceptuellement de l'erreur de l'adéquation de la droite aux données réelles.
- Équation d'une droite : y = ax + b
L'erreur Type
- Les équations des droites de régression simplifient la réalité, car elles ne tiennent pas compte de l'erreur des résidus.
- Le calcul des paramètres (a et b) est une estimation de valeur probable et non une détermination de valeur réelle.
- Cette erreur est appelée erreur type ou erreur standard.
- L'erreur type trouve son origine dans la distribution d'échantillonnage.
- Les indices statistiques déterminés pour un échantillon ne sont que très rarement équivalents aux valeurs réelles qui seraient observées pour la population.
- Plus l'échantillon est important, moins l'erreur sera grande.
Équation de la Droite de Régression
- On utilise la méthode des moindres carrés.
- Calcul du cœfficient directeur (a): a = COV (X,Y ) / s²x
- Le calcul du terme constant (b) est possible par simple résolution d’équation du premier degré:b = y − ax
- Il faut connaître un point de la droite, tel que G, centre de gravité du nuage de point. G représente le point au croisement de la moyenne de X et de la moyenne de Y , soit G(x̄; ȳ).
- Il est possible d'estimer des valeurs qui n'ont pas été observées une fois l'équation de la droite déterminée:
- une valeur de Y sachant une valeur de X : y = ax + b
- une valeur de X sachant une valeur de Y : x = (y-b)/a
- tracer la droite de régression en utilisant deux points lui appartenant.
- En réalité, les équations devraient s’écrire : y = ax + b + Er, où Er représente l’erreur résiduelle (erreur de prédiction).
Prédiction sans Prédicteur
- L'utilisation d'une régression n'est pas toujours possible.
- Lorsque une seule variable est étudiée ou qu'il n'existe pas de relation forte entre les variables disponibles.
- Permet de résoudre le problème des données manquantes.
- Dans ces situations, la meilleure solution est d'utiliser la moyenne de la série considérée.
- Choisir n'importe quelle autre valeur que la moyenne augmente le risque de se tromper davantage par rapport à la valeur qui serait réellement observée.
- Utiliser la moyenne, c'est choisir la valeur qui aura le moins d'incidence sur la série statistique étudiée.
- L'objectif d'une prédiction reste d'être au plus près de la réalité de l'observation visée.
- Si plusieurs variables sont disponibles, il faut utiliser la série considérée mais en tenant compte des éventuels sous-groupes (série conditionnelle).
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.