Analyse de Régression - Analyse statistique PDF
Document Details

Uploaded by ReasonedSchrodinger
University of Fribourg
Tags
Summary
Ce document traite de divers concepts liés à l'analyse de régression, en commençant par la régression linéaire simple, puis en explorant la régression linéaire multiple et la régression logistique. Il couvre des sujets tels que l'estimation des paramètres, l'interprétation des résultats et les conditions d'application de la régression.
Full Transcript
**Régression Linéaire Simple** - **Mesure de association linéaire entre 2 variables continue** (dans *même sens, au même rythme*) - Calcule la **droite de régression** avec **méthode des moindres carrés** - En algèbre : **y = β~0~ + β~1~x** → β0 = ordonnée à origine, β1 = pente, x...
**Régression Linéaire Simple** - **Mesure de association linéaire entre 2 variables continue** (dans *même sens, au même rythme*) - Calcule la **droite de régression** avec **méthode des moindres carrés** - En algèbre : **y = β~0~ + β~1~x** → β0 = ordonnée à origine, β1 = pente, x = variable qui intéresse - Hypothèses : **H~0~ : β~1~ = 0** (pas pente = pas lien entre variables) **H~1~ : β~1~ ≠ 0** (lien positif (monte) ou négatif (descend)  A. **Estimation des paramètres** 1. **Erreur : y = β~0~ + β~1~x + ε** - la meilleure droite pour relation entre toutes variables : celle qui minimise carré de toutes erreurs =\> somme = 0 - Méthode des moindres carrés pour **estimer paramètres :**  - Dans R : 2. **Résidu : écart entre valeur y observée et ce qui est prédit par modèle** (traitillés p.1, s = écart-type) 3. **Erreurs standards ** des coefficients b0 et b1 montrent leur précision  - Dans R : B. **Test et interprétation** - Statistique de **T-Test** pour b1 : **b1 / s.e(b1)** - ***Degrés de liberté **: nb valeurs qui sont susceptibles de varier (pas fixés)* → Ce test suit une **loi de Student à n-2 degrés de liberté** (pente et erreur standard = perte 2 degrés) - Proba observer valeur ou + extrême est 2.08% (\ - on peut rejeter H~0~ (β~1~ = 0, lien positif entre 2 variables) [Exemple :] degrés de liberté 4 étudiants A, B, C, D Moyenne des notes 5/6 On connaît notes 3 étudiants ; A = 4, B = 5, C = 6 → pour que moyenne soit à 5, D doit avoir note 5 → les 3 premières notes sont choisies, que D est fixée car moyenne fixée - On a 4-1 = 3 degrés liberté - On perd 1 degré liberté en imposant la moyenne (contrainte) - **Distribution de loi Student **: + il y a degrés liberté (df) \ + rapproche de loi normale II. **Régression Linéaire Multiple** - **Extension de régression linéaire simple avec plusieurs variables** ***! modèle [multivariable]*** (= plusieurs x, 1 outcome) ***et pas multivarié*** (plusieurs outcomes) - En algèbre : **y = β~0~ + β~1~x + β~2~x~2~** - Hypothèses portent sur **pentes **: **H0 : β1 = 0** **H0 : β2 = 0** **H1 : β1 ≠ 0** **H1 : β2 ≠ 0** A. **Diagramme de Venn** - Voir **corrélation** entre prédicteurs (variables)  - Dans R : III. **Condition application de régression linéaire**  1. **Indépendance** des observations 2. **Linéarité :** lien entre x et y linéaire (constant ; sens et vitesse) 3. **Normalité des résidus**: distribution normale résidus 4. **Homoscédasticité **: variance résidus (erreurs) même pour toutes valeurs de x - Homoscédasticité respectée : distribution aléatoire & uniforme points autour y = 0 5. **Pas multicolinéarité** (régression linéaire multiple) : variables prédictrices doivent pas être fortement **corrélées** (difficile voir effets chaque variable) - Corrélation \ A. **Interactions** - **Interaction entre variables = une variable prédictrice modifie outcome d'une autre variables prédictrice**  [Exemples : ] 1. **Interaction modérée** : 2. **Pas interaction **: 3. **Interaction faible :** - Tester une interaction : - On teste **3 effets ;** 2. **Effets principaux** (H0 : β~1~ = 0 & H0 : β~2~ = 0) **Effets de interaction** (H0 : β~3~ = 0) - Maths : interaction = **multiplier 2 variables** - Hypothèse sur interaction pour dire si **différence pentes statistiquement significative** - Dans R : - Problème avec interaction **non-centrée** (multiplication X1 & X2) : **problème de** **multicolinéarité** - Solution : *lorsque 2 variables sont continues, **centrer les variables prédictrices*** **\***centrer : soustraire moyenne de chaque variable \ nouvelle variable avec moyenne = 0  IV. **Régression logistique** - **Association** (lien) **entre variable prédictrice continue & outcome [binaire ]** - **Outcome **: prend 2 valeurs, **0 ou 1** (loi Bernouilli) - La relation entre variable et outcome **pas linéaire** \> utiliser **transformation logarithmique** pour transformer en **linéaire** - **Logit** donne à régression logistique la même expression que régression linéaire (y = β0 + β1x) A. **Estimer paramètres** - Prédire appartenance au groupe (Y = 0 ou Y = 1, β0 = intercept, β1 = pente) - Méthode du **maximum de vraisemblance** (pas des moindres carrés) - **Vraisemblance **: mesure de probabilité avoir les données observées avec les paramètres du modèle - **Log-vraisemblance **: faciliter calculs B. **Évaluer coefficients** - **Tester hypothèses nulles **: - Utiliser **test de Wald** (par défaut sur R) : - W = T lors linéaire W suit loi du Chi carré Z suit loi normale W & Z on pas même loi / distribution mais donne même p-value R donne Z - Autres test (test du rapport de vraisemblance, test du score de Rao)  - **Loi du Chi Carré (X^2^) **: [Exemple :] X : variable prédictrice continue Y : outcome binaire → lien entre X & Y ?  C. **Conditions d'application de régression logistique** 1. **Indépendance** des observation (participants indépendants...) 2. **Linéarité **: lien entre x & logit(y) est linéaire 3. **Absence multicolinéarité** (régression linéaire multiple) : variables pas trop corrélées 4. **Absence valeurs extrêmes**