going back to long lines after switching to PLAN9's editor Acme

2022-02-19 19:03:46 +01:00 · 2022-02-19 19:03:46 +01:00 · c31e8b9ef3
commit c31e8b9ef3
parent a6b386e0cb
1 changed files with 15 additions and 9 deletions
--- a/17_biais_variance_ridge.Rmd
+++ b/17_biais_variance_ridge.Rmd
@ -13,8 +13,8 @@ classoption: fleqn

 Nous rappelons l'expression de l'estimation des coefficients d'un modèle de régression ridge en fonction de la décomposition en valeurs singulières de la matrice des données.
 $$
-\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad 
-       \mathbf{U} \in \mathbb{R}^{m \times r} \; , \; 
+\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad
+       \mathbf{U} \in \mathbb{R}^{n \times r} \; , \;
       \mathbf{D} \in \mathbb{R}^{r \times r} \; , \;
       \mathbf{V} \in \mathbb{R}^{r \times p}
 $$
@ -22,9 +22,9 @@ $$
 \hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j} \frac{d_j}{d_j^2 + \lambda} \mathbf{u_j}^T\mathbf{y}
 \label{eq:beta-ridge-svd}
 \end{equation}
-Nous supposons que les données observées sont générées par un processus linéaire assujetti à un bruit gaussien.
+Nous supposons que les données observées sont générées par un processus linéaire avec un bruit gaussien.
 \begin{equation}
-y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i
+y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i \quad \text{et} \quad \epsilon_i \sim \mathcal{N}(0,\sigma^2)
 \label{eq:processus-lineaire-bruit-gaussien}
 \end{equation}
 $\epsilon_i$ représente un bruit gaussien de moyenne nulle et de variance $\sigma^2$ supposée être identique pour chaque observation (hypothèse forte, dite d'homoscédasticité, elle s'impose souvent aux modèles de régression) et sans covariances entre observations (hypothèse d'indépendance).
@ -74,14 +74,15 @@ $$
 & \left(\mathbf{U}^T\mathbf{U}\right)^{-1}\mathbf{U}^T\mathbf{y} \\
 = \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
 &  \mathbf{U}^T\mathbf{y} \\
-= \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\ 
+= \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\
 &  \mathbf{U}^T\left(\mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon\right) \\
 = \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
 &  \boldsymbol\alpha + \mathbf{U}^T\boldsymbol\epsilon \\
 \end{aligned}
 $$

-Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$).
+Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car
+nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$).

 Calculons la variance de l'estimateur $\hat{\boldsymbol\alpha}$.
 $$
@ -148,12 +149,17 @@ $$
 \end{aligned}
 $$

-De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de $\mathbf{X}$.
+De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de
+$\mathbf{X}$.
 $$
 \hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j}\frac{d_j}{d_j^2+\lambda}\mathbf{u_j}^T\mathbf{y}
 $$

-Ainsi, puisque $\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant $\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ :
+Ainsi, puisque
+$\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant
+$\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour
+valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire
+entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ :
 $$
 \hat{\boldsymbol\beta}_\lambda = \mathbf{W} \hat{\boldsymbol\beta}
 $$
@ -173,4 +179,4 @@ $$
 \end{aligned}
 $$

-La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément selon tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente.
+La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément suivant tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente.