Introduction à la méthode des moindres carrés

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Pour la fonction $f(x) = x^n$ où $n \in \mathbb{N}^*$, quel est le domaine de définition de sa dérivée?

$\mathbb{R}$

Si la dérivée d'une fonction est $f'(x) = 0$ sur $\mathbb{R}$, que peut-on conclure sur la nature de la fonction originale $f(x)$?

La fonction est constante.

La fonction $f(x) = |x|$ est-elle dérivable en $x=0$? Justifiez brièvement.

Non, car elle n'est pas dérivable en 0.

Pour une fonction linéaire $f(x) = mx + p$ (avec $m$ non nul), quelle est la signification géométrique de la dérivée $f'(x) = m$?

<p>La pente de la droite.</p> Signup and view all the answers

Quel est le domaine de dérivabilité de la fonction $f(x) = \frac{1}{x}$ ?

<p>$]-\infty; 0[ \cup ]0; +\infty[$</p> Signup and view all the answers

Si $f(x) = \sqrt{x}$, quel est le domaine de définition de $f(x)$ et quel est le domaine de définition de sa dérivée $f'(x)$?

<p>Domaine de $f(x)$: $[0; +\infty[$. Domaine de $f'(x)$: $]0; +\infty[$.</p> Signup and view all the answers

Étant donné $f(x) = \frac{1}{x^n}$, où $n \in \mathbb{N}^*$, exprimez sa dérivée $f'(x)$.

<p>$f'(x) = \frac{-n}{x^{n+1}}$</p> Signup and view all the answers

Pour la fonction $f(x) = x$, quelle est la valeur de sa dérivée $f'(x)$ et comment interprétez-vous ce résultat?

<p>$f'(x) = 1$. La fonction croît au même rythme que $x$.</p> Signup and view all the answers

La fonction $f(x) = |x|$ est définie sur $\mathbb{R}$, mais sa dérivée est définie sur $\mathbb{R}^*$. Pourquoi ?

<p>Elle n'est pas dérivable en 0.</p> Signup and view all the answers

Si $f(x) = k$ où $k$ est une constante réelle, pourquoi sa dérivée est-elle toujours égale à zéro?

<p>La fonction ne change pas.</p> Signup and view all the answers

Flashcards

Dérivée d'une constante

Pour f(x) = k, où k est une constante réelle, la dérivée f'(x) est 0.

Dérivée de x

Pour f(x) = x, la dérivée f'(x) est 1.

Dérivée d'une fonction affine

Pour f(x) = mx + p, la dérivée f'(x) est m. (m non nul)

Dérivée de x carré

Pour f(x) = x², la dérivée f'(x) est 2x.

Signup and view all the flashcards

Dérivée d'une puissance

Pour f(x) = x^n, où n est un entier naturel non nul, la dérivée f'(x) est nx^(n-1).

Signup and view all the flashcards

Dérivée de l'inverse de x

Pour f(x) = 1/x, la dérivée f'(x) est -1/x².

Signup and view all the flashcards

Dérivée de 1/x^n

Pour f(x) = 1/x^n, la dérivée f'(x) est -n/x^(n+1).

Signup and view all the flashcards

Dérivée de la racine carrée de x

Pour f(x) = √x, la dérivée f'(x) est 1/(2√x).

Signup and view all the flashcards

Dérivée de la valeur absolue de x

La dérivée de |x| est définie par morceaux : 1 si x > 0, -1 si x < 0.

Signup and view all the flashcards

Study Notes

Introduction aux moindres carrés

  • La méthode des moindres carrés est une approche standard de l'analyse de régression pour approximer la solution de systèmes surdéterminés.
  • Les systèmes surdéterminés sont des ensembles d'équations dans lesquels il y a plus d'équations que d'inconnues.
  • "Moindres carrés" signifie que la solution globale minimise la somme des carrés des erreurs commises lors de la résolution de chaque équation.

Régression linéaire simple

  • Étant donné un ensemble de données ${(x_i, y_i)}_{i=1}^n$, l'objectif est de trouver la droite d'ajustement optimale $y = mx + b$.
  • $m$ est la pente.
  • $b$ est l'ordonnée à l'origine.

Dérivation

  • Vise à minimiser la somme des carrés des erreurs (SSE): $\min_{m, b} \sum_{i=1}^{n} (y_i - (mx_i + b))^2$.
  • Pour trouver les valeurs de $m$ et $b$ qui minimisent la SSE, les dérivées partielles sont calculées par rapport à $m$ et $b$ et mises à zéro:
    • $\frac{\partial}{\partial m} \sum_{i=1}^{n} (y_i - (mx_i + b))^2 = 0$
    • $\frac{\partial}{\partial b} \sum_{i=1}^{n} (y_i - (mx_i + b))^2 = 0$
  • La résolution de ces équations donne:
    • $m = \frac{n \sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}$
    • $b = \frac{\sum_{i=1}^{n} y_i - m \sum_{i=1}^{n} x_i}{n}$
  • Ces formules donnent les valeurs de $m$ et $b$ qui minimisent la somme des carrés des erreurs pour la régression linéaire simple.

Interprétation géométrique

  • Considérons un modèle linéaire $y = X\beta$, où :
    • $y$ est le vecteur des valeurs observées
    • $X$ est la matrice de conception
    • $\beta$ est le vecteur des paramètres à estimer.
  • La solution des moindres carrés $\hat{\beta}$ minimise la norme euclidienne au carré du vecteur résiduel $r = y - X\beta$:
    • $\hat{\beta} = \arg\min_{\beta} ||y - X\beta||^2_2$
  • L'interprétation géométrique consiste à projeter le vecteur $y$ sur l'espace des colonnes de $X$.
  • La projection de $y$ sur l'espace des colonnes de $X$ est le vecteur $X\hat{\beta}$, et le vecteur résiduel $r = y - X\hat{\beta}$ est orthogonal à l'espace des colonnes de $X$.
  • Cette condition d'orthogonalité conduit aux équations normales : $X^T(y - X\hat{\beta}) = 0$.
  • La résolution pour $\hat{\beta}$ donne l'estimateur des moindres carrés : $\hat{\beta} = (X^TX)^{-1}X^Ty$.
  • Cette solution minimise la distance entre les valeurs observées $y$ et les valeurs prédites $X\hat{\beta}$, fournissant la meilleure adéquation au sens des moindres carrés.

Régression linéaire multiple

  • Pour un modèle avec plusieurs prédicteurs, l'équation devient: $y = X\beta + \epsilon$
    • $y$ est un vecteur de réponses $n \times 1$
    • $X$ est une matrice de conception $n \times p$
    • $\beta$ est un vecteur de coefficients $p \times 1$
    • $\epsilon$ est un vecteur d'erreurs $n \times 1$

Estimateur des moindres carrés ordinaires (OLS)

  • $\hat{\beta} = (X^TX)^{-1}X^Ty$

Propriétés de l'estimateur OLS

  • Sans biais : $E[\hat{\beta}] = \beta$ (en supposant $E[\epsilon] = 0$)
  • Variance : $Var(\hat{\beta}) = \sigma^2(X^TX)^{-1}$ (en supposant $Var(\epsilon) = \sigma^2I$)
  • Théorème de Gauss-Markov : L'estimateur OLS est le meilleur estimateur linéaire sans biais (BLUE)

Régularisation

  • Lors du traitement de la multicolinéarité ou des données de grande dimension, les techniques de régularisation peuvent améliorer la stabilité et les performances de généralisation de l'estimateur des moindres carrés.

Régression Ridge (régularisation L2)

  • $\hat{\beta}{ridge} = \arg\min{\beta} {||y - X\beta||^2_2 + \lambda||\beta||^2_2}$
  • $\hat{\beta}_{ridge} = (X^TX + \lambda I)^{-1}X^Ty$

Régression Lasso (régularisation L1)

  • $\hat{\beta}{lasso} = \arg\min{\beta} { \frac{1}{2n}||y - X\beta||^2_2 + \lambda||\beta||_1 }$
  • Lasso effectue une sélection de variables en réduisant certains coefficients à zéro.

Lectures

  • Sections 3.1-3.3 de [James et al., 2013]
  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning. Springer series in statistics.
  • Cette conférence couvre les concepts et techniques fondamentaux de l'estimation des moindres carrés.
  • Elle fournit une base pour comprendre l'analyse de régression et ses applications.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Use Quizgecko on...
Browser
Browser