Cours - Classification Automatique¶

[Diapositives du cours : 2 par page] [Diapositives du cours : 1 par page]

L’identification automatique de groupes de données similaires dans un (grand) ensemble de données est une composante importante de la fouille de données. La classification automatique (cluster analysis ou clustering en anglais) cherche à regrouper les données de façon à obtenir des groupes tels que les données sont plus similaires entre elles à l’intérieur d’un même groupe (cluster en anglais) qu’entre groupes. Dans la mesure où les notions de similarité et de groupe peuvent être explicitées de multiples façons, de nombreuses méthodes de classification automatique ont été proposées depuis les années 1930. Des synthèses partielles peuvent être trouvées, par exemple, dans [JMF99] ou [BBS14].

Après une brève typologie des méthodes de classification automatique, nous nous intéresserons à la mise en œuvre d’algorithmes de classification dans un contexte de données massives.

Une première distinction entre méthodes de classification automatique peut être faite suivant leur objectif. La plupart des méthodes visent à obtenir un partitionnement des données, comme dans l’exemple suivant, plus éventuellement de trouver une donnée « représentative » (« prototype ») par groupe :

Fig. 48 Exemple de partitionnement de données bidimensionnelles¶

D’autres méthodes cherchent plutôt à obtenir une hiérarchie de regroupements, qui fournit une information plus riche concernant la structure de similarité des données. Noter qu’à partir d’une telle hiérarchie il est facile d’extraire plusieurs partitionnements, à des niveaux de « granularité » différents, comme dans l’exemple suivant :

Fig. 49 Exemple de regroupement hiérarchique qui peut servir à obtenir plusieurs partitionnements¶

Une seconde distinction peut être faite suivant la nature des données à regrouper : données numériques, données catégorielles ou données mixtes. Si la plupart des méthodes visent les données numériques, certaines peuvent traiter directement des données catégorielles. Toutefois, les données catégorielles sont fréquemment transformées en données numériques (par ex. par une analyse factorielle des correspondances multiples) avant d’être traitées par des méthodes de classification adaptées aux données numériques.

Une autre distinction correspond à la représentation des données. De nombreuses méthodes de classification automatique travaillent sur des représentations vectorielles qui, en plus de différentes métriques, permettent de définir des centres de gravité de groupes, des densités de probabilité, des intervalles, des sous-espaces, etc. Certaines méthodes se satisfont, en revanche, d’une simple structure métrique sur l’espace des données ; cela leur confère une grande généralité.

Une distinction importante concerne la nature des groupes recherchés : sont-il mutuellement exclusifs ou non ? Sont-ils « nets » (crisp) ou « flous » (fuzzy) ? Si la plupart des méthodes de classification automatique s’intéressent aux partitionnement exclusifs, certaines permettent d’obtenir des groupes non exclusifs (par ex., dans un mélange gaussien, deux lois peuvent présenter une « intersection » significative). Aussi, des extensions floues existent pour des méthodes de classification automatiques bien connues (par ex. fuzzy c-means pour K-means, voir [JMF99]). Les extensions floues peuvent être plus robustes que les méthodes « nettes » de départ.

Enfin, une autre distinction importante peut être faite suivant le critère de regroupement. Certaines méthodes cherchent des groupes « compacts » et relativement éloignés entre eux, comme dans cet exemple de partitionnement Fig. 48. D’autres méthodes s’intéressent à des groupes denses (et non nécessairement « compacts ») séparés par des régions moins denses, comme dans l’exemple suivant :

Fig. 50 Exemple de groupes denses séparés par des régions moins denses¶

Il faut noter que ce critère de regroupement n’est pas toujours explicite, pourtant son impact sur les résultats obtenus est majeur.

Enfin, revenons sur la distinction entre classification automatique et auto-jointure par similarité. Pour un ensemble de données \(\mathcal{D}\) et un seuil de distance \(\theta\), l’auto-jointure par similarité doit retourner les paires d’éléments de \(\mathcal{D}\) qui sont à une distance inférieure au seuil, c’est à dire \(K_{\theta} = \{(\mathbf{x},\mathbf{y}) | \mathbf{x},\mathbf{y} \in \mathcal{D}, d(\mathbf{x},\mathbf{y}) \leq \theta\}\), voir par exemple la figure suivante :

Fig. 51 Exemple d’auto-jointure par similarité ; les traits correspondent aux liens de forte similarité¶

A partir du graphe résultant il est ensuite possible d’extraire des cliques, des composantes connexes, etc. L’intérêt de cette opération est d’identifier des données hautement similaires, cette forte similarité ayant une signification particulière (par ex. « variantes » d’une même donnée). Les données « isolées », qui n’ont pas de voisin suffisamment proche (au vu de \(\theta\)), sont simplement ignorées dans les résultats.

La classification automatique, en revanche, vise un regroupement des données par similarité. En général, chaque donnée appartiendra à un groupe, même si elle n’a pas de voisins proches, comme dans la figure suivante. Il faut toutefois noter que certaines méthodes de classification automatique retournent séparément (hors groupes) des données considérées « isolées » dans le sens « mal expliquées » par tous les groupes trouvés.

Fig. 52 Exemple de classification automatique ; les traits correspondent aux frontières de séparation entre les trois groupes¶

Classification descendante hiérarchique avec Bisecting k-means¶

Parmi les méthodes qui visent à obtenir une hiérarchie de regroupements, nous examinons brièvement dans la suite Bisecting k-means qui est une méthode de classification descendante hiérarchique. Rappelons que, par rapport à un simple partitionnement des données, une hiérarchie de regroupements fournit une information plus riche concernant la structure de similarité des données. A partir de la hiérarchie de groupes résultante il est possible d’observer l’ordre des agrégations de groupes et d’examiner les rapports de similarités entre groupes. Une hiérarchie de groupes peut également permettre d’obtenir plusieurs partitionnements à des niveaux de granularité différents.

Afin d’obtenir une classification hiérarchique nous pouvons employer une approche ascendante ou une approche descendante. La classification ascendante procède par agrégations successives des groupes les plus proches. Différentes mesures de distance entre groupes peuvent être obtenues à partir des distances entre données individuelles. Lorsque le point de départ de la classification ascendante hiérarchique (CAH) est constitué par l’ensemble des données individuelles (en nombre de \(N\)), la CAH présente une complexité algorithmique de \(O(N^2)\), supérieure à celle de K-means. Pour cette raison, elle est plutôt appliquée sur les centres des groupes issus d’une classification par K-means avec un nombre très élevé de groupes (groupes de granularité fine). Enfin, la CAH n’est pas efficacement parallélisable, raison pour laquelle il n’y a pas d’implémentation Spark reconnue.

La classification descendante procède plutôt par découpages récursifs des données et s’arrête en général bien avant d’atteindre le niveau des données individuelles. Si la méthode de découpage employée est bien choisie, la classification descendante hiérarchique (CDH) peut garder une complexité réduite et être efficacement parallélisable. Une solution simple consiste à se servir de K-means pour séparer des groupes obtenus aux itérations précédentes en sous-groupes. Cette solution est employée dans la méthode bisecting k-means qui est présentée dans la suite.

Bisecting k-means procède par le découpage, à chaque itération, du groupe de données le moins compact en deux (sous-)groupes obtenus par application de K-means avec \(k = 2\). L’algorithme est le suivant :

Entrées : ensemble \(\mathcal{E}\) de \(N\) données de \(\mathbb{R}^p\) et nombre souhaité de groupes \(k\) ;

Sorties : \(\mathcal{C} = \{\mathbf{c}_j, 1 \leq j \leq k\}\), centres des groupes résultants ;

Initialization: liste avec un seul groupe qui regroupe toutes les données ;

tant que (nombre groupes \(\lt k\)) faire

Retirer de la liste le groupe qui a la plus forte inertie intra-classe ;

pour (\(i\) de 1 à nb_essais) faire

Appliquer K-means avec \(k = 2\) pour diviser ce groupe en 2 sous-groupes ;

fin pour

Ajouter à la liste des groupes les 2 sous-groupes avec la plus faible somme des inerties intra-classe ;

fin tant que

On observe que la somme des inerties intra-groupe diminue à chaque itération, le groupe le moins compact (qui a la plus forte inertie intra-classe) étant divisé en deux sous-groupes. Aussi, le découpage fait à chaque itération est éventuellement affiné dans les itérations ultérieures mais n’est pas remis en cause, donc des données qui sont séparées du « bon » groupe à une itération ne peuvent pas retourner dans ce groupe après.

Les deux figures suivantes illustrent les résultats de deux itérations successives sur un eptit ensemble de données (les sépales des Iris).

Fig. 59 Après la première itération de bisecting k-means sont obtenus deux groupes. On observe qu’un des points (en jaune) n’est pas affecté au groupe le plus approprié. C’est une illustration du fait que l’application de K-means avec \(k=2\) peut produire des découpages trop grossiers, qui sont affinés mais pas remis en cause lors des itérations ultérieures.¶

Fig. 60 Après la seconde itération de bisecting k-means sont obtenus trois groupes. C’est bien le groupe qui présentait l’inertie intra-classe la plus élevée qui a été découpé en deux.¶

Par rapport à K-means, bisecting k-means présente une meilleure stabilité car à chaque itération plusieurs essais sont réalisés pour découper le groupe qui présente l’inertie intra-classe la plus élevée et les groupes conservés sont les deux sous-groupes dont la somme des inerties intra-classe est la plus faible. Par ailleurs, le coût de bisecting k-means est plus faible que celui de k-means car seule la première itération travaille sur toutes les données (et pour trouver seulement deux groupes), chacune des itérations suivantes se limite à la partie des données correspondant au groupe le moins compact.

En revanche, les résultats obtenus avec K-means peuvent être mieux ajustés aux groupes présents dans les données que les résultats obtenus avec bisecting k-means. En effet, l’application de K-means avec \(k=2\) lors des premières itérations de bisecting k-means peut produire des découpages trop grossiers qui coupent des groupes présents dans les données, or ces découpages ne sont pas remis en cause lors des itérations ultérieures de bisecting k-means.

Classification automatique dans Spark¶

Spark propose des implémentations de plusieurs algorithmes de classification automatique :

K-means, avec une initialisation par K-means|| ([BMV12]) que nous avons étudié plus haut.

Estimation de mélanges gaussiens en utilisant l’algorithme espérance-maximisation (Expectation-Maximization, EM). Le mélange gaussien résultant est une estimation de densités qui peut également servir à la classification automatique : chaque donnée sera « affectée » au groupe défini par la composante du mélange qui « explique » le mieux cette donnée. EM est un algorithme itératif, chaque itération comporte une étape de calcul de l’espérance de la vraisemblance et une étape de calcul des paramètres (paramètres des lois normales du mélange et coefficients de mélange) qui maximisent cette vraisemblance. Les équations de mise à jour sont facilement parallélisables.

Bisecting K-means, méthode de classification descendante hiérarchique qui à chaque itération partitionne en deux sous-groupes le groupe d’inertie intra-classe la plus élevée. Nous l’avons étudié plus haut.

Power Iteration Clustering (PIC, voir [LC10]) est une simplification de la classification spectrale qui travaille sur la matrice des similarités entre données.

Pour Latent Dirichlet Allocation (LDA, voir [BNJ03]), l’objectif initial était d’identifier des « thèmes » (topics) dans un ensemble de documents textuels et ensuite d”« expliquer » chaque document par un ou plusieurs de ces thèmes. La méthode a toutefois une applicabilité plus large.

[AV07]

Arthur, D. and S. Vassilvitskii. K-means++: The advantages of careful seeding. In Proceedings of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms, SODA’07, pages 1027–1035, Philadelphia, PA, USA, 2007. Society for Industrial and Applied Mathematics.

[BMV12] (1,2,3,4)

Bahmani, B., B. Moseley, A. Vattani, R. Kumar, and S. Vassilvitskii. Scalable k-means++. Proc. VLDB Endowment, 5(7):622–633, 2012.

[BNJ03]

Blei, D. M., A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, Mar. 2003.

[BBS14]

Bouveyron, C., C. Brunet-Saumard. Model-based clustering of high-dimensional data: A review, Computational Statistics and Data Analysis, Volume 71, March 2014, Pages 52-78, ISSN 0167-9473, http://dx.doi.org/10.1016/j.csda.2012.12.008.

[JMF99] (1,2)

Jain, A. K., M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM Comput. Surv. 31, 3 (September 1999), 264-323. DOI=http://dx.doi.org/10.1145/331499.331504.

[LC10]

Lin, F. and W. W. Cohen. Power iteration clustering. In J. Fürnkranz and T. Joachims, editors, International Conference on Machine Learning, pages 655–662. Omnipress, 2010.

Cours - Classification Automatique¶

K-means¶

K-means : une implémentation simple MapReduce¶

Initialisation de K-means par K-means++¶

Initialisation K-means parallélisable : K-means||¶

Classification descendante hiérarchique avec Bisecting k-means¶

Classification automatique dans Spark¶

Table des matières

Recherche