Statistiques pour Médecins - Régression Linéaire PDF
Document Details
Uploaded by ProminentPun
Faculté de Médecine
Christophe Combescure, Angèle Gayet-Ageron
Tags
Related
Summary
Ce document présente un cours sur la régression linéaire pour les médecins, y compris des exemples et explications. Le document aborde les concepts de corrélation, régression linéaire simple et multiple. Il souligne l'importance de l'interprétation des résultats statistiques.
Full Transcript
STATISTIQUES POUR MEDECINS Régression linéaire Christophe Combescure Angèle Gayet-Ageron Unité d’Appui Méthodologique du CRC FACULTÉ DE MÉDECINE Rappel: Tests statistiques ▪ Procédure pour choisir entre hypothèse nulle et hypothèse alte...
STATISTIQUES POUR MEDECINS Régression linéaire Christophe Combescure Angèle Gayet-Ageron Unité d’Appui Méthodologique du CRC FACULTÉ DE MÉDECINE Rappel: Tests statistiques ▪ Procédure pour choisir entre hypothèse nulle et hypothèse alterne ▪ D’abord on formule les hypothèses ▪ H0: pas d’association ▪ survie identique avec le traitement expérimental et le comparateur ▪ aucune différence de taille entre femmes et hommes ▪ HA: association est présente ▪ Ensuite on récolte les données ▪ observations de survie chez des patients traités et non-traités ▪ mesure des tailles d’hommes et de femmes ▪ On fait le test, dont le résultat est significatif ou non-significatif 2 Rappel: Tests statistiques ▪ Si l’hypothèse nulle est vraie: ▪ résultat non-significatif (réponse correcte) dans 95% des cas ▪ résultat significatif (erreur de type 1) dans 5% des cas ▪ Erreur de type 2: ▪ résultat non-significatif lorsque l’hypothèse alterne est vraie ▪ risque contrôlé à 20% (ou 10%) par un calcul de la taille d’échantillon ▪ puissance = 100% - risque erreur de type 2 ▪ Si résultat significatif: Option privilégiée ▪ soit l’hypothèse alterne est vraie dans l’interprétation ▪ soit l’hypothèse nulle est vraie et on a fait une erreur de type 1 ▪ Si résultat non-significatif: ▪ soit l’hypothèse nulle est vraie ▪ soit l’hypothèse alterne est vraie on a fait une erreur de type 2 3 Rappel: Valeur p ▪ Mesure à quel point les résultats observés contredisent l’hypothèse nulle ▪ Plus p est petit, plus les résultats contredisent H0 ▪ Valeur p: probabilité de survenue de la différence observée ou d’une différence plus importante si l’hypothèse nulle était vraie ▪ p≤0.05 équivaut à un résultat du test significatif ▪ p>0.05 équivaut à un résultat du test non-significatif 4 Rappel: Intervalle de confiance ▪ On fait des hypothèses sur des paramètres (vraies valeurs qui décrivent l’univers), mais on observe des estimations (issus d’échantillons limités) ▪ Intervalle de confiance (IC): ensemble des valeurs du paramètre qui sont compatibles avec l’estimateur observé ▪ IC à 95%: si on répétait l’étude un grand nombre de fois, 95% des IC calculés contiendraient la vraie valeur du paramètre (mais dans le cas particulier on ne sait pas si c’est le cas…) ▪ Plus l’IC est étroit, plus l’estimation est précise ▪ Si IC contient la valeur du paramètre correspondant à H0: test non-significatif ▪ Si IC exclut la valeur du paramètre correspondant à H0: test significatif 5 Objectifs Comprendre les notions suivantes – corrélation entre deux variables continues – modélisation – régression linéaire simple – régression linéaire multiple Chapitres Petrie/Sabin 26 (corrélation) 27 – 29 (modèle de régression linéaire) 6 Exemple du questionnaire Question de recherche: La taille des individus est-elle liée au poids corporel ? 7 Relation entre poids et taille Plus la taille est grande, plus le poids est élevé Plus le poids est élevé, plus la taille est grande 8 Corrélation En statistique, la corrélation est la relation entre 2 variables (continues et mesurées chez les mêmes sujets) Karl Pearson propose en 1896 une formule mathématique pour la notion de corrélation et un estimateur de cette grandeur: coefficient de corrélation de Pearson 9 Coefficient de corrélation r Formule de la corrélation (notée r) entre X et Y: xi et yi sont les mesures des variables X et Y chez le sujet i mx et my sont les moyennes de X et de Y dans l’échantillon n est le nombre de sujets dans l’échantillon sx et sy sont les écarts types de X et Y dans l’échantillon Le dénominateur contraint r à être entre -1 et 1 10 Coefficient de corrélation r Y Y X X 11 14 12 Contribution positive à la 10 Moyenne de Y corrélation car xi > mx et yi > my 8 Y 6 4 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 14 12 10 Moyenne de Y 8 Contribution positive à la Y corrélation car xi < mx et yi < my 6 4 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 14 Contribution négative à la corrélation car xi < mx et yi > my 12 10 Moyenne de Y 8 Y 6 4 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 14 12 10 Moyenne de Y 8 Contribution négative à la Y corrélation car xi > mx et yi < my 6 4 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 14 12 10 Moyenne de Y 8 Contribution plus forte Y 6 4 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 16 14 12 10 Moyenne de Y 8 Y Les contributions positives sont plus nombreuses et plus importantes que les 6 contributions négatives 4 Le coefficient de corrélation est positif 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 14 12 10 Moyenne de Y 8 Y Les contributions négatives sont plus 6 nombreuses et plus importantes que les contributions positives 4 Le coefficient de corrélation est négatif 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X 14 12 10 Moyenne de Y 8 Y 6 Les contributions positives et négatives 4 se compensent Le coefficient de corrélation est nul 2 Moyenne de X 0 0 2 4 6 8 10 12 14 X Coefficient de corrélation r Mesure le degré d’association linéaire entre 2 variables continues r varie entre –1 et +1: –1.0 parfaite corrélation négative –0.5 corrélation négative moyenne 0.0 corrélation nulle 0.5 corrélation positive moyenne 1.0 parfaite corrélation positive Attention! si l’association existe, mais n’est pas linéaire, r n’est pas interprétable correctement 20 Combien vaut r ? -1.0 0.8 0.0 -0.8 0.0 +1.0 21 Association non linéaire Les contributions négatives et positives se compensent: r=0 Mais pourtant, il existe un lien entre X et Y 14 12 10 8 Y 6 4 2 0 0 2 4 6 8 10 X Retour à l’exemple Poids/Taille r = 0.67 p < 0.001 r2 = 0.45 r est un estimateur du paramètre r est affecté d’une erreur d’estimation, ou erreur- type, qui permet de calculer une valeur p H0: = 0 Corrélation entre poids et taille Le poids et la taille sont corrélés parmi les étudiant-es en médecine de 1ère année La corrélation est positive, forte (r=0.67), et statistiquement significative (p