Rechercher

[CLS08] Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

Revue Internationale avec comité de lecture : Journal Revue des Nouvelles Technologies de l'Information (RNTI-E-11), vol. 1, pp. 43-54, 2008

Mots clés: Text Mining, Biclustering, Clustering, Natural Language Processing

Résumé: Notre objectif dans cet article est l’analyse textuelle d’un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L’application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L’ensemble de classes de pages groupés en thèmes facilitera l’analyse ultérieure de l’usage du site.

Equipe: msdma

BibTeX

@article {
CLS08,
title="{Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web}",
author="M. Charrad and Y. Lechevallier and G. Saporta and M. Ben Ahmed",
journal="Revue des Nouvelles Technologies de l'Information (RNTI-E-11)",
year=2008,
volume=1,
pages="43-54",
}