diff --git a/05_presentation_svd.Rmd b/05_presentation_svd.Rmd index 6a6d440..f0b7e37 100644 --- a/05_presentation_svd.Rmd +++ b/05_presentation_svd.Rmd @@ -19,7 +19,7 @@ Nous présentons la décomposition en valeurs singulières, une méthode génér Soit un tableau de données $\mathbf{X}$ composé de $N$ observations en lignes, chacune décrite par $P$ variables en colonnes. $x_{ij}$ est la valeur de la variable $j$ pour l'observation $i$. Les vecteurs lignes forment $N$ points de l'espace $\mathbb{R}^P$. Les vecteurs colonnes forment $P$ points de l'espace $\mathbb{R}^N$. Nous cherchons à projeter le nuage des points lignes sur un sous-espace $\mathcal{H} \subset \mathbb{R}^P$, tout en minimisant les déformations. -Pour commencer, nous considérons le meilleur sous-espace $\mathcal{H}$ à une dimension, c'est-à-dire une droite définie par son vecteur directeur unitaire $\mathbf{v}$ ("unitaire" signifie ici que sa norme euclidienne est égale à $1$, soit $\sqrt{\mathbf{v}^T\mathbf{v}}=1$, autrement dit, $\mathbf{v}^T\mathbf{v}=1$). Soit $M_i$ un des $N$ points de $\mathbb{R}^P$. A ce point correspond le vecteur $\mathbf{OM_i}$ aussi noté $\mathbf{x_i}$ car ses coordonnées se lisent sur la i-ème ligne de $\mathbf{X}$. Soit $H_i$ la projection de $M_i$ sur la droite $\mathcal{H}$. +Pour commencer, nous considérons le meilleur sous-espace $\mathcal{H}$ à une dimension, c'est-à-dire une droite définie par son vecteur directeur unitaire $\mathbf{v}$ ("unitaire" signifie ici que sa norme euclidienne est égale à $1$, soit $\sqrt{\mathbf{v}^T\mathbf{v}}=1$, ou encore, $\mathbf{v}^T\mathbf{v}=1$). Soit $M_i$ un des $N$ points de $\mathbb{R}^P$. A ce point correspond le vecteur $\mathbf{OM_i}$ aussi noté $\mathbf{x_i}$ car ses coordonnées se lisent sur la i-ème ligne de $\mathbf{X}$. Soit $H_i$ la projection de $M_i$ sur la droite $\mathcal{H}$. ![svd1](images/svd1.jpeg) @@ -84,7 +84,7 @@ Calculons la norme euclidienne, aussi appelée norme L2, de $\mathbf{X}\mathbf{v & \sqrt{\lambda_\alpha} \\ \end{align*} -Nous avons montré plus haut que $\left(\mathbf{X}\mathbf{v_\alpha}\right)$ est un vecteur propre de $\mathbf{X}\mathbf{X}^T$ de valeur propre associée $\lambda_\alpha$. Or, $\mathbf{u_\alpha}$ est le vecteur propre unitaire (i.e., de norme euclidienne égale à 1) de $\left(\mathbf{X}\mathbf{v_\alpha}\right)$ associé à la valeur propre $\lambda_\alpha$. C'est pourquoi, nous pouvons écrire : +Nous avons montré plus haut que $\left(\mathbf{X}\mathbf{v_\alpha}\right)$ est un vecteur propre de $\mathbf{X}\mathbf{X}^T$ de valeur propre associée $\lambda_\alpha$. Or, $\mathbf{u_\alpha}$ est le vecteur propre unitaire (i.e., de norme euclidienne égale à 1) de $\left(\mathbf{X}\mathbf{X}^T\right)$ associé à la valeur propre $\lambda_\alpha$. C'est pourquoi, nous pouvons écrire : \[ \begin{cases} @@ -99,7 +99,7 @@ A partir de l'égalité $\mathbf{X}\mathbf{v_\alpha}=\mathbf{u_\alpha}\sqrt{\lam \mathbf{X}\left(\sum_{\alpha=1}^{P}\mathbf{v_\alpha}\mathbf{v_\alpha}^T\right) = \sum_{\alpha=1}^{P}\sqrt{\lambda_\alpha}\mathbf{u_\alpha}\mathbf{v_\alpha}^T \] -Soit $\mathbf{V}$ la matrice formée des $P$ vecteurs $\mathbf{v_\alpha}$ en colonnes. Comme les vecteurs $\mathbf{v_\alpha}$ sont orthogonaux deux à deux et de norme $1$, $\mathbf{V}\mathbf{V}^T$ est la matrice identité $\mathbf{I_P}$. Donc, $\sum_{\alpha=1}^{P}\mathbf{v_\alpha}\mathbf{v_\alpha}^T=\mathbf{V}\mathbf{V}^T=\mathbf{I_P}$. Nous obtenons finalement : +Soit $\mathbf{V}$ la matrice formée des $P$ vecteurs $\mathbf{v_\alpha}$ en colonnes. Comme les vecteurs $\mathbf{v_\alpha}$ sont orthogonaux deux à deux et de norme $1$, $\mathbf{V}^T\mathbf{V}$ est la matrice identité $\mathbf{I_P}$, et $\sum_{\alpha=1}^{P}\mathbf{v_\alpha}\mathbf{v_\alpha}^T=\mathbf{V}^T\mathbf{V}=\mathbf{I_P}$. Nous obtenons finalement : \begin{equation} \mathbf{X} = \sum_{\alpha=1}^{P}\sqrt{\lambda_\alpha}\mathbf{u_\alpha}\mathbf{v_\alpha}^T