Document Details

UpscaleJadeite6337

Uploaded by UpscaleJadeite6337

Université de Montréal

Leslie Podlog

Tags

statistics statistical methods data analysis variable types

Summary

This document is lecture notes on the introduction of statistical concepts. It covers topics as introduction, variability, inference statistics, populations and samples, sampling methods, variable types, and data types. The document also contains examples and discussions on statistical ideas, and shows some sets of data.

Full Transcript

Leslie Podlog, Ph.D. Professor EKSAP [email protected] Adapté des diaporamas du Professeur Raynald Bergeron 7  Introduction  Variabilité  Inférence statistique  Population et échantillon  Méthode d’échantillonnage  Types de variables  Types de données...

Leslie Podlog, Ph.D. Professor EKSAP [email protected] Adapté des diaporamas du Professeur Raynald Bergeron 7  Introduction  Variabilité  Inférence statistique  Population et échantillon  Méthode d’échantillonnage  Types de variables  Types de données 8 La statistique nous apporte des réponses à des questions telles que :  Quelle est la valeur normale d’un paramètre biologique (taille, poids, glycémie) ?  Le traitement A est-il plus efficace que le traitement B ?  Est-ce que les non-fumeurs sont vraiment affectés par les fumeurs ou l’effet nocif du tabagisme passif est-il un mythe ?  La prise régulière d’aspirine réduit-elle les risques d’évènement cardiaque? statistique nous apporte des données chiffrées  En bref, la auxquelles nous pouvons faire confiance 9 Pour comparer objectivement, nous avons besoin des chiffres ! Prenons un exemple… 10 Temps en seconds d’une course à pied de 100 m de 10 élèves du secondaire Garçons Filles 13 15 14 16 18 14 20 17 13 18 15 21 14 13 13 14 19 18 21 14 11 Garçons Filles 13 15 14 16 18 14 20 17 13 18 15 21 Quelles implications, le cas échéant, 14 13 13 14 pourrait avoir cette découverte pour 19 18 un professeur d'éducation physique 21 14 qui organise des activités en classe ? Moyenne:16 16 écart type:2,8 2,8 t-test :0,278 Discussion en binômes (2 minutes) 12. - Définition : La statistique est un moyen objectif d'interpréter un ensemble d'observations. - Statistique : C'est une science mathématique se rapportant à la collecte, l'analyse, l'interprétation, l'explication et la présentation des données. - La statistique nous aide à répondre aux questions sur la variabilité de nos échantillons  Voici 90 valeurs représentant la 65 64 66 78 55 64 56 66 77 masse corporelle (kg) de 90 étudiants en kinésiologie 65 61 68 77 66 55 55 57 59 66 64 67 49 81 65 60 65 65  On connait que la moyenne de 61 67 65 56 67 81 50 52 53 la masse corporelle de cet échantillon de quatre-vingt dix 62 64 64 62 55 77 55 56 57 (90) personnes est de 64,7 kg 69 67 64 56 61 67 54 67 69 66 63 67 56 73 80 70 72 75  Mais que se passe-t-il si nous voulons savoir si l'échantillon 68 62 67 71 66 52 77 79 80 est homogène ou hétérogène du point de vue de la masse ? 63 69 64 56 72 66 82 83 84 Quelle notion nous permet de 62 63 67 49 73 64 54 53 72 savoir si cette population est homogène ou non? 2024-08-20 14 VARIABILITÉ 65 64 66 78 55 64 56 66 77 65 61 68 77 66 55 55 57 59  La biologie humaine ou l’anthropométrie sont des sciences non exactes; on y observe 66 64 67 49 81 65 60 65 65 de la variabilité : 61 67 65 56 67 81 50 52 53 62 64 64 62 55 77 55 56 57  Ex.: Tous les étudiants en kinésiologie n’ont pas la même masse corporelle (Tableau 1) 69 67 64 56 61 67 54 67 69 66 63 67 56 73 80 70 72 75 68 62 67 71 66 52 77 79 80  Cette variabilité pose un certain nombre de 63 69 64 56 72 66 82 83 84 problèmes /questions : 62 63 67 49 73 64 54 53 72 Ex: Tableau 1 - Masse corporelle (kg) d’un échantillon d’étudiants en kinésiologie de 3 universités 2024-08-20 15 1. Question 1: Quelle information concise et utile peut-on extraire de ces données ? Comment décrire la variabilité ? 2. Question 2. Sachant que les personnes d’un même programme ont des masses différentes, qu’est-ce qui nous permet d’affirmer que les personnes d’un autre programme d’études auront des masses corporelles comparables ? Jusqu’à quel point peut-on généraliser les résultats d’une expérience ? Comment inférer en présence de variabilité ? 3. Question 3. L’un des buts de toute science consiste à identifier les sources de variabilité afin d’être en mesure de prédire (ou même de modifier) les phénomènes étudiés. - Pourquoi certaines personnes ont plus de masse que d’autres ? - Quelle masse atteindra une personne dans de telles conditions ? Comment prédire la variabilité ? 2024-08-20 16 1. Question 1 : Comment décrire la variabilité ? STATISTIQUE DESCRIPTIVE -résumer ou décrire les caractéristiques importantes d'un ensemble connu de données démographiques 2. Question 2: Comment inférer en présence de variabilité ? STATISTIQUE INFÉRENTIELLE - utiliser des échantillons de données pour faire des inférences (ou des généralisations) sur une population  Techniques corrélationnelles  Différences entre les groupes  Inclut une "valeur p" 3. Question 3: Comment prédire la variabilité ? MODÉLISATION STATISTIQUE -utiliser des exemples de données pour faire des prédictions 2024-08-20 17  Que nous apprennent les techniques statistiques ?  Signification des différences entre les groupes  Force de la relation entre les variables  Différences entre les groupes  T-tests  ANOVA (Analyse de la Variance)  Relations entre les variables  Corrélations  Régressions  Méthodes permettant de généraliser à une population les conclusions tirées des résultats obtenus à partir d’un échantillon. Classification, L’information Collecte de résumé et provient-elle Début données traitement des d’un données échantillon? Faire les OUI NON Utiliser les données de inférences recensement et analyser les données en main Tirer les conclusions sur les paramètres de la population Arrêt 2024-08-20 19 🤗🤗🤠🤠🤠🤠🤠🤠🤠🤠🤠🤠🤠🤠🤠🤠 ☹😀😀😀😀😀😘😘😘😘😘😘😘😘 🤗🤗🤓🤓🤓🤓 🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁🙁 😆😆😆😆😆😆 😤😤 😯😯😯😯 Population Échantillon Paramètre: une mesure qui décrit une Statistique: Une mesure qui est calculée à partir caractéristique de la population d’un échantillon. Les paramètres sont des entités réelles. Les statistiques sont des estimations d’un Exemple: La moyenne (µ) dans une paramètre. population est un paramètre. Exemple: La moyenne ( x ) dans un échantillon est une statistique Elle est fixe (mais généralement inconnue) Elle varie d’un échantillon à l’autre 2024-08-20 20 Ch. 14 dans Fortin et Gagnon On constitue un On fait des mesures échantillon dans l’échantillon Échantillon On calcule une statistique connue dans l’échantillon Paramètre inconnu dans la population Population On élabore une conclusion sur le paramètre inconnu L’inférence statistique consiste à utiliser une information prélevée sur un échantillon pour tirer des conclusions sur un paramètre de la population. L’inférence statistique se fera sur la base de divers tests statistiques (p. ex. : corrélations, t-test, 2024-08-20etc.) 21 Ch. 14 dans VOCABULAIRE : POPULATION, UNITÉ STATISTIQUE, VARIABLE Fortin et Gagnon  Population : ensemble des individus d’intérêt d’une étude, que ce soient des patients, des plantes, des insectes.  Avant d’entreprendre une étude ou une expérience, il s’agit de définir autant précisément que possible qui nous intéresse.  Individu (unité statistique, élément) : membre de la population étudiée.  Variable : caractéristique d’intérêt mesurable chez les individus de la population :  l’âge d’un patient  la taille d’un athlète  pile ou face - résultat du lancer d’une pièce de monnaie il s’agit ici de définir le quoi (ce qui nous intéresse) 22 Ch. 14 dans VOCABULAIRE : TAILLE, DONNÉES Fortin et Gagnon  Taille: effectif total ou nombre d’individus (éléments) concernés par l’étude.  Données : ensemble de mesures ou d'observations concernant l'état ou l'évolution d'un phénomène. Ce sont les valeurs d’une ou de plusieurs variables chez un certain nombre d'individus. 23 Ch. 14 dans Fortin et Gagnon  Échantillon = partie ou sous-ensemble formée à partir d’une population  But de l'échantillonnage :  Recueillir de l'information en vue d'un jugement, d'une appréciation ou d'une décision  Faire une inférence : on s’intéresse à une population, mais on ne dispose que d’un échantillon  Il faut donc que les informations sur l’échantillon soient pertinentes, fiables, représentatives et non biaisées 2024-08-20 24 Ch. 14 dans Fortin et Gagnon  Types d'échantillons (liste non exhaustive) :  Échantillon représentatif  Il contient toutes les caractéristiques de la population (population-mère)  Échantillon biaisé  Il ne renferme pas toutes les caractéristiques de la population  Échantillon aléatoire  Ses éléments ont été choisis au hasard  Échantillon aléatoire simple (EAS)  Chaque unité a une chance égale d’être choisie 2024-08-20 25 Ch. 14 dans Fortin et Gagnon  Il donne à chaque membre de la population une chance (probabilité non nulle) connue d’être choisi.  Comment obtenir un EAS?  Générateur de nombres aléatoires  Ordinateur : Excel; =ALEA.ENTRE.BORNES(1;189)  Calculette : fonction RANDOM.  Autres mécanismes acceptables (piger dans un chapeau)  Table de nombres aléatoires (page suivante). 2024-08-20 26 Table de nombre aléatoire  Étiquetage  On donne une étiquette à chaque individu de la population  Ex : le professeur d’une classe de 30 étudiants (N = 30) veut évaluer la perception des étudiants sur la représentativité des examens par rapport au contenu du cours. Afin d’éviter le biais, il veut faire un EAS de 10 étudiants (n = 10). Les 10 étudiants choisis répondront à un questionnaire  Étiqueter chacun des 30 étudiants avec un numéro à 2 chiffres : 01, 02,... , 30  Choisir une ligne arbitrairement dans la table (ligne 101)  Les paires sont : 19, 22, 39, 50, 34, 05, 75, 62, 87, 13, 96, 40, 91, 25, 31, 42, 54, 48, 28, 53,  Ignorer les nombres qui ne sont pas entre 1 et 30  Il en reste : 19, 22, 05, 13, 25, 28  Faire le même exercice avec une autre ligne jusqu’à ce qu’on ait n=10 individus 2024-08-20 27 Ch. 14 dans Fortin et Gagnon La population est divisée en groupes homogènes d’individus (groupe = strate). …puis, on effectue un échantillonnage aléatoire simple (EAS) dans chaque strate. Le tout forme l’échantillon. 2024-08-20 28  On distingue deux types de variables : qualitative (catégorielle) ou quantitative (numérique)  Variable qualitative (ou catégorielle) :  Les valeurs sont des catégories ou groupes  Ex.: sexe, couleur des yeux, échelle de satisfaction (de «pas du tout satisfait», «satisfait », « très satisfait »), allégeance politique  Variable quantitative (ou numérique)  Elle peut prendre n’importe quelle valeur chiffrée (théoriquement)  Ex.: masse, taille, concentration d’un médicament 29  Variables quantitatives continues  Elles peuvent prendre n’importe quelle valeur (théoriquement)  Ex: masse, taille, concentration d’un médicament  Variables quantitatives discrètes (chiffres entiers)  Nombre de personnes  Nombre d’enfants dans une famille  Nombre de produits défectueux 30  Variables dépendantes  Ce sont les mesures à réaliser (une ou plusieurs)  Ex.: on mesure le temps au 100 m, la FC à la fin d’une course de 200 m, le nombre maximum de pompes (push-ups)  Variables indépendantes  Ce sont les variables qui sont contrôlées par l’expérimentateur (une ou plusieurs)  Ex.: traitement pharmacologique, supplément alimentaire, type d’exercice prescrit, sexe, pathologie 2024-08-20 31 A. Dépendante = durée d’un étirement ; indépendante = amplitude B. Dépendante = amplitude ; indépendante = durée d’un étirement 32 Ch. 15 dans Fortin et Gagnon  Échelle nominale: catégories mutuellement exclusives et non ordonnées :  Sexe (masculin ou féminin)  Ethnicité (asiatique, caucasien, africain)  Allégeance politique (PQ, CAQ, Libéral)  Groupe sanguin – A, B, AB ou O  Échelle ordinale: catégories mutuellement exclusives et ordonnées. Mais on ne quantifie pas l’écart entre les sujets (il n`y a pas un distance égale entre les sujets)  e. x. : grade dans l’armée: lieutenant – capitaine – colonel – général 33  e.x., léger, modéré ou grave Ch. 15 dans Fortin et Gagnon  Échelle d’intervalle: ordre de grandeur, classement où l’on peut quantifier l’écart entre les sujets, MAIS il n`y a pas de point de départ zéro (« 0 » ne signifie pas une absence de valeur)  E.x. : température (10 oC n’est pas 5 fois plus chaud que 2 oC)  Ex. : QI (une note de 100 n’est pas 2 fois meilleure qu’une note de 50)  Échelle de rapport ou ratio: ordre de grandeur, distance égale entre les unités, et « 0 » signifie absence de valeur  masse : 50 kg est 2 fois plus lourd que 25 kg (0 kg représente l’absence de masse) 34 En binômes, classifiez ce qui suit comme nominal, ordinal, intervalle ou ratio et justifiez votre choix Nombre de personnes dans une pièce Code postal  Classement des villes en fonction du nombre annuel de jours nuageux Scores aux tests de mathématiques (le plus bas = 0, le plus haut = 100) 35  Variabilité : la statistique est une science de la variabilité (on décrit, déduit et prédit la variabilité)  Inférence statistique: on tire des conclusions sur une population à partir d'un échantillon  Population et échantillon: ensemble des individus d’intérêt d’une étude vs. une partie ou sous-ensemble formée à partir d’une population  Différentes méthodes d’échantillonnage  Types de variables : qualitative et quantitative (continue ou discrète)  Types de données : nominale, ordinale, intervalle, ratio 36 FIN 2024-08-20 37

Use Quizgecko on...
Browser
Browser