going back to long lines after switching to PLAN9's editor Acme

This commit is contained in:
Pierre-Edouard Portier 2022-02-19 19:03:46 +01:00
parent a6b386e0cb
commit c31e8b9ef3
1 changed files with 15 additions and 9 deletions

View File

@ -13,8 +13,8 @@ classoption: fleqn
Nous rappelons l'expression de l'estimation des coefficients d'un modèle de régression ridge en fonction de la décomposition en valeurs singulières de la matrice des données. Nous rappelons l'expression de l'estimation des coefficients d'un modèle de régression ridge en fonction de la décomposition en valeurs singulières de la matrice des données.
$$ $$
\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad \text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad
\mathbf{U} \in \mathbb{R}^{m \times r} \; , \; \mathbf{U} \in \mathbb{R}^{n \times r} \; , \;
\mathbf{D} \in \mathbb{R}^{r \times r} \; , \; \mathbf{D} \in \mathbb{R}^{r \times r} \; , \;
\mathbf{V} \in \mathbb{R}^{r \times p} \mathbf{V} \in \mathbb{R}^{r \times p}
$$ $$
@ -22,9 +22,9 @@ $$
\hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j} \frac{d_j}{d_j^2 + \lambda} \mathbf{u_j}^T\mathbf{y} \hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j} \frac{d_j}{d_j^2 + \lambda} \mathbf{u_j}^T\mathbf{y}
\label{eq:beta-ridge-svd} \label{eq:beta-ridge-svd}
\end{equation} \end{equation}
Nous supposons que les données observées sont générées par un processus linéaire assujetti à un bruit gaussien. Nous supposons que les données observées sont générées par un processus linéaire avec un bruit gaussien.
\begin{equation} \begin{equation}
y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i \quad \text{et} \quad \epsilon_i \sim \mathcal{N}(0,\sigma^2)
\label{eq:processus-lineaire-bruit-gaussien} \label{eq:processus-lineaire-bruit-gaussien}
\end{equation} \end{equation}
$\epsilon_i$ représente un bruit gaussien de moyenne nulle et de variance $\sigma^2$ supposée être identique pour chaque observation (hypothèse forte, dite d'homoscédasticité, elle s'impose souvent aux modèles de régression) et sans covariances entre observations (hypothèse d'indépendance). $\epsilon_i$ représente un bruit gaussien de moyenne nulle et de variance $\sigma^2$ supposée être identique pour chaque observation (hypothèse forte, dite d'homoscédasticité, elle s'impose souvent aux modèles de régression) et sans covariances entre observations (hypothèse d'indépendance).
@ -74,14 +74,15 @@ $$
& \left(\mathbf{U}^T\mathbf{U}\right)^{-1}\mathbf{U}^T\mathbf{y} \\ & \left(\mathbf{U}^T\mathbf{U}\right)^{-1}\mathbf{U}^T\mathbf{y} \\
= \{& \text{$\mathbf{U}$ est orthogonale.} \} \\ = \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
& \mathbf{U}^T\mathbf{y} \\ & \mathbf{U}^T\mathbf{y} \\
= \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\ = \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\
& \mathbf{U}^T\left(\mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon\right) \\ & \mathbf{U}^T\left(\mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon\right) \\
= \{& \text{$\mathbf{U}$ est orthogonale.} \} \\ = \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
& \boldsymbol\alpha + \mathbf{U}^T\boldsymbol\epsilon \\ & \boldsymbol\alpha + \mathbf{U}^T\boldsymbol\epsilon \\
\end{aligned} \end{aligned}
$$ $$
Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$). Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car
nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$).
Calculons la variance de l'estimateur $\hat{\boldsymbol\alpha}$. Calculons la variance de l'estimateur $\hat{\boldsymbol\alpha}$.
$$ $$
@ -148,12 +149,17 @@ $$
\end{aligned} \end{aligned}
$$ $$
De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de $\mathbf{X}$. De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de
$\mathbf{X}$.
$$ $$
\hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j}\frac{d_j}{d_j^2+\lambda}\mathbf{u_j}^T\mathbf{y} \hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j}\frac{d_j}{d_j^2+\lambda}\mathbf{u_j}^T\mathbf{y}
$$ $$
Ainsi, puisque $\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant $\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ : Ainsi, puisque
$\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant
$\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour
valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire
entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ :
$$ $$
\hat{\boldsymbol\beta}_\lambda = \mathbf{W} \hat{\boldsymbol\beta} \hat{\boldsymbol\beta}_\lambda = \mathbf{W} \hat{\boldsymbol\beta}
$$ $$
@ -173,4 +179,4 @@ $$
\end{aligned} \end{aligned}
$$ $$
La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément selon tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente. La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément suivant tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente.