ML1/ML1_04_validation_croisee.R

# Séparer le jeu de données en un jeu d'entraînement et un jeu de validation.
# INPUT : jeu de données initial et proportion des données conservées pour
#         l'entraînement.
xvalpart <- function(data,p) {
  n <- nrow(data$X)
  nentr <- round(p*n)
  entridx <- sample(1:n, nentr, replace=FALSE)
  list(entr  = list(X = data$X[entridx,,drop=FALSE],  Y = data$Y[entridx]),
       valid = list(X = data$X[-entridx,,drop=FALSE], Y = data$Y[-entridx]))
}

# Découper le jeu de données initial en entraînement et validation.
# Pour chaque valeur proposée de l'hyperparamètre alpha d'une régression ridge,
# apprendre un modèle sur le jeu d'entraînement.
# Retourner les coefficients du meilleur modèle avec la moyenne de la valeur
# absolue des erreurs commises par ce modèle sur le jeu de validation.
# La fonction ridge est défini dans le code source de la partie 3.
xvalridge <- function(alphas, data, degre, p) {
  tmp <- xvalpart(data,p)
  lcoef <- sapply(alphas, ridge, tmp$entr, degre)
  pred <- sapply(split(lcoef,col(lcoef)), polyeval, tmp$valid$X)
  meanabserrs <- colMeans(abs(pred - tmp$valid$Y))
  minmeanabserr <- min(meanabserrs)
  minidx <- which(meanabserrs == minmeanabserr)
  list(meanabserr = minmeanabserr, coef = lcoef[,minidx], alpha = alphas[minidx])
}
Nouvelle structuration en fichiers indépendants avec code source dissocié. 2021-08-30 15:22:05 +02:00			`# Séparer le jeu de données en un jeu d'entraînement et un jeu de validation.`
			`# INPUT : jeu de données initial et proportion des données conservées pour`
			`# l'entraînement.`
			`xvalpart <- function(data,p) {`
			`n <- nrow(data$X)`
			`nentr <- round(p*n)`
			`entridx <- sample(1:n, nentr, replace=FALSE)`
			`list(entr = list(X = data$X[entridx,,drop=FALSE], Y = data$Y[entridx]),`
			`valid = list(X = data$X[-entridx,,drop=FALSE], Y = data$Y[-entridx]))`
			`}`

			`# Découper le jeu de données initial en entraînement et validation.`
			`# Pour chaque valeur proposée de l'hyperparamètre alpha d'une régression ridge,`
			`# apprendre un modèle sur le jeu d'entraînement.`
			`# Retourner les coefficients du meilleur modèle avec la moyenne de la valeur`
			`# absolue des erreurs commises par ce modèle sur le jeu de validation.`
			`# La fonction ridge est défini dans le code source de la partie 3.`
			`xvalridge <- function(alphas, data, degre, p) {`
			`tmp <- xvalpart(data,p)`
			`lcoef <- sapply(alphas, ridge, tmp$entr, degre)`
			`pred <- sapply(split(lcoef,col(lcoef)), polyeval, tmp$valid$X)`
			`meanabserrs <- colMeans(abs(pred - tmp$valid$Y))`
			`minmeanabserr <- min(meanabserrs)`
			`minidx <- which(meanabserrs == minmeanabserr)`
			`list(meanabserr = minmeanabserr, coef = lcoef[,minidx], alpha = alphas[minidx])`
			`}`