| ||||||||||||||||||||||||||||||||||||
[BS13] Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparseConférence Nationale avec comité de lecture : 45 èmes Journées de statistique, May 2013, pp.pp, Toulouse, France,Mots clés: Reduction de dimension, Analyse en Composantes Principales sparse, Analyse des Correspondances Multiples, decomposition en valeurs singulieres, methodes multibloc
Résumé:
L'Analyse en Composantes Principales pour des donnees quantitatives, et
l'Analyse des Correspondances Multiples pour des donnees qualitatives, sont des techniques
de reduction de dimension bien connues. Cependant, les composantes obtenues a
l'issue de ces methodes sont des combinaisons de toutes les variables de depart, ce qui
rend l'interpretation des resultats dicile pour des donnees de grande dimension. Pour
pallier ces dicultes, nous proposons deux nouvelles methodes de selection de groupes de
variables quantitatives et qualitatives : la "Group Sparse Principal Component Analysis"
et l'ACM sparse, respectivement. La GSPCA est une extension de la SPCA-rSVD de
Shen et Huang pour des donnees structurees par bloc. Elle utilise les liens entre l'ACP
et la decomposition en valeurs singulieres, an d'extraire les composantes en resolvant un
probleme d'approximation de matrice de rang inferieur. Une contrainte de type "Group
Lasso" est introduite dans ce probleme de minimisation an d'obtenir des composantes
etant combinaison d'un petit nombre de groupes de variables. Les loadings d'un groupe
sont mis a zero permettant de reduire le nombre de variables selectionnees. La selection ne
sera pas globale mais propre a chaque composante. Puisque l'ACM est un cas particulier
de l'ACP pour des blocs de variables indicatrices, l'ACM sparse est denie comme une
extension de la GSPCA. Une application de cette methode sera presentee sur un jeu de
donnees bien connu comportant 27 races de chiens, decrites par 6 variables qualitatives.
Equipe:
msdma
BibTeX
|
||||||||||||||||||||||||||||||||||||