Les tous premiers éléments du cours.

This commit is contained in:
Pierre-Edouard Portier 2021-04-16 13:15:55 +02:00
parent 8d9fdcfd15
commit ff4306379b
3 changed files with 20674 additions and 3 deletions

View File

@ -11,3 +11,5 @@ Encoding: UTF-8
RnwWeave: Sweave
LaTeX: pdfLaTeX
SpellingDictionary: fr_FR

View File

@ -3,11 +3,39 @@ title: "Introduction à l'analyse de données"
output: html_notebook
---
Test.
Soit un jeu de données $\left\{ \left( \mathbf{x}^{(i)}, y^{(i)} \right) \right\}_{i=1}^{N}$.
$\mathbf{x}^{(i)}$ est un vecteur de $D$ variables. Pour $j=1\dots D$, les variables $x_j^{(i)}$ décrivent l'instance (ou observation ou individu ou point) numéro $i$.
$\mathbf{X}$ est une matrice obtenue par empilement des $N$ vecteurs $\mathbf{x}^{(i)}$.
Ce cours traite principalement de deux aspects de l'analyse de données, à savoir, premièrement, expliquer la relation entre les variables $x_j$ et la cible $y$ et, deuxièmement, prédire la valeur de la cible pour une nouvelle instance.
Le problème de prédiction est un problème de classification quand la cible appartient à un ensemble fini de classes. Il s'agit d'un problème de régression si la cible est un nombre réel. Plus rarement, la cible peut posséder une structure complexe, comme une séquence, un arbre ou un graphe.
On charge un jeu de données sur le prix des maisons dans un district de Californie dans les années 1990. Ce jeu de données est disponible sur le site [kaggle.com](https://www.kaggle.com/camnugent/california-housing-prices).
```{r}
plot(cars)
house <- read.csv('datasets/housing.csv',header=TRUE)
```
De combien d'instances (autrement dit de lignes) et de variables (autrement dit de colonnes) ce jeu de données est-il fait ?
```{r}
dim(house)
```
20640 instances et 10 variables.
Quelles sont ces variables ?
```{r}
summary(house)
```
On affiche les premières lignes de ce jeu de données.
```{r}
head(house)
```
Test Test.

20641
datasets/housing.csv Normal file

File diff suppressed because it is too large Load Diff