ML1/ML1_intro.Rmd

---
title: "Jeu de données"
output: html_notebook
---

# Concepts de base

Soit un jeu de données $\left\{ \left( \mathbf{x}^{(i)}, y^{(i)} \right)  \right\}_{i=1}^{N}$.

$\mathbf{x}^{(i)}$ est un vecteur de dimension $D$, appelé observation (ou individu ou point ou instance...). Pour $j=1\dots D$, chaque composante $x_j^{(i)}$ de ce vecteur est la valeur prise par la variable $x_j$ pour l'observation numéro $i$.

$\mathbf{X}$ est une matrice obtenue par empilement des $N$ vecteurs $\mathbf{x}^{(i)}$.

Ce cours traite principalement de deux aspects de l'analyse de données, à savoir, premièrement, expliquer la relation entre les variables $x_j$ et la cible $y$ et, deuxièmement, prédire la valeur de la cible pour une nouvelle observation.

Le problème de prédiction est un problème de classification quand la cible appartient à un ensemble fini de classes. Il s'agit d'un problème de régression si la cible est un nombre réel. Plus rarement, la cible peut posséder une structure complexe, comme une séquence, un arbre ou un graphe.

# Exemple

On charge un jeu de données sur le prix des maisons dans un district de Californie dans les années 1990. Ce jeu de données est disponible sur le site [kaggle.com](https://www.kaggle.com/camnugent/california-housing-prices).

```{r}
house <- read.csv('datasets/housing.csv',header=TRUE)
```
De combien d'observations (autrement dit les lignes de $\mathbf{X}$) et de variables (autrement dit les colonnes de $\mathbf{X}$ ainsi que la cible) ce jeu de données est-il fait ?

```{r}
dim(house)
```

20640 observations et 10 variables.

Quelles sont ces variables ?

```{r}
summary(house)
```

On affiche les premières lignes de ce jeu de données.

```{r}
head(house)
```