ML1/ML1_intro.Rmd

42 lines
1.6 KiB
Plaintext

---
title: "Introduction à l'analyse de données"
output: html_notebook
---
Soit un jeu de données $\left\{ \left( \mathbf{x}^{(i)}, y^{(i)} \right) \right\}_{i=1}^{N}$.
$\mathbf{x}^{(i)}$ est un vecteur de $D$ variables. Pour $j=1\dots D$, les variables $x_j^{(i)}$ décrivent l'instance (ou observation ou individu ou point) numéro $i$.
$\mathbf{X}$ est une matrice obtenue par empilement des $N$ vecteurs $\mathbf{x}^{(i)}$.
Ce cours traite principalement de deux aspects de l'analyse de données, à savoir, premièrement, expliquer la relation entre les variables $x_j$ et la cible $y$ et, deuxièmement, prédire la valeur de la cible pour une nouvelle instance.
Le problème de prédiction est un problème de classification quand la cible appartient à un ensemble fini de classes. Il s'agit d'un problème de régression si la cible est un nombre réel. Plus rarement, la cible peut posséder une structure complexe, comme une séquence, un arbre ou un graphe.
On charge un jeu de données sur le prix des maisons dans un district de Californie dans les années 1990. Ce jeu de données est disponible sur le site [kaggle.com](https://www.kaggle.com/camnugent/california-housing-prices).
```{r}
house <- read.csv('datasets/housing.csv',header=TRUE)
```
De combien d'instances (autrement dit de lignes) et de variables (autrement dit de colonnes) ce jeu de données est-il fait ?
```{r}
dim(house)
```
20640 instances et 10 variables.
Quelles sont ces variables ?
```{r}
summary(house)
```
On affiche les premières lignes de ce jeu de données.
```{r}
head(house)
```