From c31e8b9ef39cc69836d36fd4081da8c17a808e36 Mon Sep 17 00:00:00 2001 From: Pierre-Edouard Portier Date: Sat, 19 Feb 2022 19:03:46 +0100 Subject: [PATCH] going back to long lines after switching to PLAN9's editor Acme --- 17_biais_variance_ridge.Rmd | 24 +++++++++++++++--------- 1 file changed, 15 insertions(+), 9 deletions(-) diff --git a/17_biais_variance_ridge.Rmd b/17_biais_variance_ridge.Rmd index 77031d5..150495f 100644 --- a/17_biais_variance_ridge.Rmd +++ b/17_biais_variance_ridge.Rmd @@ -13,8 +13,8 @@ classoption: fleqn Nous rappelons l'expression de l'estimation des coefficients d'un modèle de régression ridge en fonction de la décomposition en valeurs singulières de la matrice des données. $$ -\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad - \mathbf{U} \in \mathbb{R}^{m \times r} \; , \; +\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad + \mathbf{U} \in \mathbb{R}^{n \times r} \; , \; \mathbf{D} \in \mathbb{R}^{r \times r} \; , \; \mathbf{V} \in \mathbb{R}^{r \times p} $$ @@ -22,9 +22,9 @@ $$ \hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j} \frac{d_j}{d_j^2 + \lambda} \mathbf{u_j}^T\mathbf{y} \label{eq:beta-ridge-svd} \end{equation} -Nous supposons que les données observées sont générées par un processus linéaire assujetti à un bruit gaussien. +Nous supposons que les données observées sont générées par un processus linéaire avec un bruit gaussien. \begin{equation} -y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i +y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i \quad \text{et} \quad \epsilon_i \sim \mathcal{N}(0,\sigma^2) \label{eq:processus-lineaire-bruit-gaussien} \end{equation} $\epsilon_i$ représente un bruit gaussien de moyenne nulle et de variance $\sigma^2$ supposée être identique pour chaque observation (hypothèse forte, dite d'homoscédasticité, elle s'impose souvent aux modèles de régression) et sans covariances entre observations (hypothèse d'indépendance). @@ -74,14 +74,15 @@ $$ & \left(\mathbf{U}^T\mathbf{U}\right)^{-1}\mathbf{U}^T\mathbf{y} \\ = \{& \text{$\mathbf{U}$ est orthogonale.} \} \\ & \mathbf{U}^T\mathbf{y} \\ -= \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\ += \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\ & \mathbf{U}^T\left(\mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon\right) \\ = \{& \text{$\mathbf{U}$ est orthogonale.} \} \\ & \boldsymbol\alpha + \mathbf{U}^T\boldsymbol\epsilon \\ \end{aligned} $$ -Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$). +Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car +nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$). Calculons la variance de l'estimateur $\hat{\boldsymbol\alpha}$. $$ @@ -148,12 +149,17 @@ $$ \end{aligned} $$ -De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de $\mathbf{X}$. +De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de +$\mathbf{X}$. $$ \hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j}\frac{d_j}{d_j^2+\lambda}\mathbf{u_j}^T\mathbf{y} $$ -Ainsi, puisque $\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant $\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ : +Ainsi, puisque +$\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant +$\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour +valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire +entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ : $$ \hat{\boldsymbol\beta}_\lambda = \mathbf{W} \hat{\boldsymbol\beta} $$ @@ -173,4 +179,4 @@ $$ \end{aligned} $$ -La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément selon tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente. +La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément suivant tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente.