Rechercher

[BS13] Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse

Conférence Nationale avec comité de lecture : 45 èmes Journées de statistique, May 2013, pp.pp, Toulouse, France,

Mots clés: Reduction de dimension, Analyse en Composantes Principales sparse, Analyse des Correspondances Multiples, decomposition en valeurs singulieres, methodes multibloc

Résumé: L'Analyse en Composantes Principales pour des donnees quantitatives, et l'Analyse des Correspondances Multiples pour des donnees qualitatives, sont des techniques de reduction de dimension bien connues. Cependant, les composantes obtenues a l'issue de ces methodes sont des combinaisons de toutes les variables de depart, ce qui rend l'interpretation des resultats dicile pour des donnees de grande dimension. Pour pallier ces dicultes, nous proposons deux nouvelles methodes de selection de groupes de variables quantitatives et qualitatives : la "Group Sparse Principal Component Analysis" et l'ACM sparse, respectivement. La GSPCA est une extension de la SPCA-rSVD de Shen et Huang pour des donnees structurees par bloc. Elle utilise les liens entre l'ACP et la decomposition en valeurs singulieres, a n d'extraire les composantes en resolvant un probleme d'approximation de matrice de rang inferieur. Une contrainte de type "Group Lasso" est introduite dans ce probleme de minimisation a n d'obtenir des composantes etant combinaison d'un petit nombre de groupes de variables. Les loadings d'un groupe sont mis a zero permettant de reduire le nombre de variables selectionnees. La selection ne sera pas globale mais propre a chaque composante. Puisque l'ACM est un cas particulier de l'ACP pour des blocs de variables indicatrices, l'ACM sparse est de nie comme une extension de la GSPCA. Une application de cette methode sera presentee sur un jeu de donnees bien connu comportant 27 races de chiens, decrites par 6 variables qualitatives.

Equipe: msdma

BibTeX

@inproceedings {
BS13,
title="{Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse}",
author=" A. Bernard and G. Saporta ",
booktitle="{45 èmes Journées de statistique}",
year=2013,
month="May",
pages="pp",
address="Toulouse, France",
}