intro_to_ml/20_tp_dilemme_biais_varianc...

30 lines
2.1 KiB
Plaintext
Raw Normal View History

# TP - Régression ridge et dilemme biais-variance - Sujet
```{r}
set.seed(1123)
```
L'idée de cette expérimentation provient de la référence [@hastie2020ridge].
## Générer un jeu de données synthétique
Générer un jeu de données simulé à partir d'un modèle linéaire :
$$y_i = \mathbf{x_i}^T \boldsymbol\beta + \epsilon_i, i=1,\dots,n \quad \mathbf{x_i}\in\mathcal{R}^p \quad ; \quad \epsilon_i \sim \mathcal{N}(0,\sigma^2)$$
```{r}
n <- 70
p <- 55
```
Utiliser $n=`r n`$ et $p=`r p`$. Les $\mathbf{x_i}$ sont indépendants et suivent, par exemple, une distribution uniforme entre $0$ et $1$ (voir la fonction `runif`). Faire en sorte que les colonnes de $\mathbf{X}$ soient de moyenne nulle et de variance unité (voir la fonction `scale`). Cela simplifie les calculs ultérieurs sans perte de généralité.
## Calculer les coefficients d'une régression ridge
Tracer l'évolution des valeurs des coefficients d'un modèle ridge pour différentes valeurs de l'hyper-paramètre de régularisation $\lambda$. Réutiliser le code introduit au chapitre 15 sur la validation croisée un-contre-tous (voir le fichier `15_loocv.R`).
Dans cette implémentation, les étiquettes $\mathbf{y}$ sont centrées avant d'opérer la régression ridge. Dans le contexte de cette expérimentation, il peut être intéressant de proposer une version pour laquelle les étiquettes ne sont pas centrées. Quelle est la différence ? La réponse est liée à la présentation de la standardisation au chapitre 3 sur la régularisation de Tikhonov.
## Espérance de l'erreur de prédiction
Pour les différentes valeurs de $\lambda$, calculer l'espérance de l'erreur de prédiction (c'est ici possible car les données sont simulées et nous connaissons le modèle qui les a générées). Cette notion a été introduite à la fin du chapitre 16. Quelle est la valeur de $\lambda$ qui minimise une estimation de l'espérance de l'erreur de prédiction ? Comment se compare-t-elle à la valeur trouvée par validation croisée un-contre-tous ? Étudier les effets du nombre d'observations, du nombre de variables et de la quantité de bruit.