going back to long lines after switching to PLAN9's editor Acme
This commit is contained in:
parent
a6b386e0cb
commit
c31e8b9ef3
@ -13,8 +13,8 @@ classoption: fleqn
|
|||||||
|
|
||||||
Nous rappelons l'expression de l'estimation des coefficients d'un modèle de régression ridge en fonction de la décomposition en valeurs singulières de la matrice des données.
|
Nous rappelons l'expression de l'estimation des coefficients d'un modèle de régression ridge en fonction de la décomposition en valeurs singulières de la matrice des données.
|
||||||
$$
|
$$
|
||||||
\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad
|
\text{SVD réduit : } \mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T \quad
|
||||||
\mathbf{U} \in \mathbb{R}^{m \times r} \; , \;
|
\mathbf{U} \in \mathbb{R}^{n \times r} \; , \;
|
||||||
\mathbf{D} \in \mathbb{R}^{r \times r} \; , \;
|
\mathbf{D} \in \mathbb{R}^{r \times r} \; , \;
|
||||||
\mathbf{V} \in \mathbb{R}^{r \times p}
|
\mathbf{V} \in \mathbb{R}^{r \times p}
|
||||||
$$
|
$$
|
||||||
@ -22,9 +22,9 @@ $$
|
|||||||
\hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j} \frac{d_j}{d_j^2 + \lambda} \mathbf{u_j}^T\mathbf{y}
|
\hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j} \frac{d_j}{d_j^2 + \lambda} \mathbf{u_j}^T\mathbf{y}
|
||||||
\label{eq:beta-ridge-svd}
|
\label{eq:beta-ridge-svd}
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Nous supposons que les données observées sont générées par un processus linéaire assujetti à un bruit gaussien.
|
Nous supposons que les données observées sont générées par un processus linéaire avec un bruit gaussien.
|
||||||
\begin{equation}
|
\begin{equation}
|
||||||
y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i
|
y_i = \mathbf{x_i}^T\boldsymbol\beta + \epsilon_i \quad \text{et} \quad \epsilon_i \sim \mathcal{N}(0,\sigma^2)
|
||||||
\label{eq:processus-lineaire-bruit-gaussien}
|
\label{eq:processus-lineaire-bruit-gaussien}
|
||||||
\end{equation}
|
\end{equation}
|
||||||
$\epsilon_i$ représente un bruit gaussien de moyenne nulle et de variance $\sigma^2$ supposée être identique pour chaque observation (hypothèse forte, dite d'homoscédasticité, elle s'impose souvent aux modèles de régression) et sans covariances entre observations (hypothèse d'indépendance).
|
$\epsilon_i$ représente un bruit gaussien de moyenne nulle et de variance $\sigma^2$ supposée être identique pour chaque observation (hypothèse forte, dite d'homoscédasticité, elle s'impose souvent aux modèles de régression) et sans covariances entre observations (hypothèse d'indépendance).
|
||||||
@ -74,14 +74,15 @@ $$
|
|||||||
& \left(\mathbf{U}^T\mathbf{U}\right)^{-1}\mathbf{U}^T\mathbf{y} \\
|
& \left(\mathbf{U}^T\mathbf{U}\right)^{-1}\mathbf{U}^T\mathbf{y} \\
|
||||||
= \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
|
= \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
|
||||||
& \mathbf{U}^T\mathbf{y} \\
|
& \mathbf{U}^T\mathbf{y} \\
|
||||||
= \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\
|
= \{& \mathbf{y} = \mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon \} \\
|
||||||
& \mathbf{U}^T\left(\mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon\right) \\
|
& \mathbf{U}^T\left(\mathbf{U}\boldsymbol\alpha + \boldsymbol\epsilon\right) \\
|
||||||
= \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
|
= \{& \text{$\mathbf{U}$ est orthogonale.} \} \\
|
||||||
& \boldsymbol\alpha + \mathbf{U}^T\boldsymbol\epsilon \\
|
& \boldsymbol\alpha + \mathbf{U}^T\boldsymbol\epsilon \\
|
||||||
\end{aligned}
|
\end{aligned}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$).
|
Nous remarquons que $\hat{\boldsymbol\alpha}$ est un estimateur sans biais : $E[\hat{\boldsymbol\alpha}]=E[\boldsymbol\alpha]$. Nous nous y attendions car
|
||||||
|
nous avons déjà montré plus haut que $\boldsymbol\beta$ est un estimateur sans biais (or $\boldsymbol\alpha$ est la "version de" $\boldsymbol\beta$ après orthogonalisation de $\mathbf{X}$).
|
||||||
|
|
||||||
Calculons la variance de l'estimateur $\hat{\boldsymbol\alpha}$.
|
Calculons la variance de l'estimateur $\hat{\boldsymbol\alpha}$.
|
||||||
$$
|
$$
|
||||||
@ -148,12 +149,17 @@ $$
|
|||||||
\end{aligned}
|
\end{aligned}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de $\mathbf{X}$.
|
De manière similaire, nous avions déjà calculé dans un précédent module une expression de $\hat{\boldsymbol\beta}_\lambda$ en fonction du SVD de
|
||||||
|
$\mathbf{X}$.
|
||||||
$$
|
$$
|
||||||
\hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j}\frac{d_j}{d_j^2+\lambda}\mathbf{u_j}^T\mathbf{y}
|
\hat{\boldsymbol\beta}_\lambda = \sum_{d_j>0} \mathbf{v_j}\frac{d_j}{d_j^2+\lambda}\mathbf{u_j}^T\mathbf{y}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
Ainsi, puisque $\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant $\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ :
|
Ainsi, puisque
|
||||||
|
$\frac{d_j}{d_j^2+\lambda}=\frac{d_j^2}{d_j^2+\lambda}\frac{1}{d_j}$, en notant
|
||||||
|
$\mathbf{W}$ une matrice diagonale dont un j-ème élément sur la diagonale a pour
|
||||||
|
valeur $\frac{d_j^2}{d_j^2+\lambda}$, nous avons découvert une relation linéaire
|
||||||
|
entre $\hat{\boldsymbol\beta}_\lambda$ et $\hat{\boldsymbol\beta}$ :
|
||||||
$$
|
$$
|
||||||
\hat{\boldsymbol\beta}_\lambda = \mathbf{W} \hat{\boldsymbol\beta}
|
\hat{\boldsymbol\beta}_\lambda = \mathbf{W} \hat{\boldsymbol\beta}
|
||||||
$$
|
$$
|
||||||
@ -173,4 +179,4 @@ $$
|
|||||||
\end{aligned}
|
\end{aligned}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément selon tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente.
|
La variance de l'estimateur $\hat{\boldsymbol\beta}_\lambda$ diminue uniformément suivant tous les axes principaux quand le paramètre $\lambda$, qui contrôle le degré de régularisation, augmente.
|
||||||
|
Loading…
Reference in New Issue
Block a user