[CLS08] Web Content Data Mining : la classification croisÃ©e pour l'analyse textuelle d'un site Web

Revue Internationale avec comité de lecture : Journal Revue des Nouvelles Technologies de l'Information (RNTI-E-11), vol. 1, pp. 43-54, 2008

Auteurs: M. Charrad , Y. Lechevallier , G. Saporta , M. Ben Ahmed

Mots clés: Text Mining, Biclustering, Clustering, Natural Language Processing

Résumé: Notre objectif dans cet article est lÂ’analyse textuelle dÂ’un site Web indÃ©pendamment de son usage. Notre approche se dÃ©roule en trois Ã©tapes. La premiÃ¨re Ã©tape consiste au typage des pages afin de distinguer les pages de navigation ou pages Â« auxiliaires Â» des pages de contenu. La deuxiÃ¨me Ã©tape consiste au prÃ©traitement du contenu des pages de contenu afin de reprÃ©senter chaque page par un vecteur de descripteurs. La derniÃ¨re Ã©tape consiste au block clustering ou la classification simultanÃ©e des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de dÃ©couvrir des biclasses de pages et de descripteurs. LÂ’application de cette approche au site de tourisme de Metz prouve son efficacitÃ© et son applicabilitÃ©. LÂ’ensemble de classes de pages groupÃ©s en thÃ¨mes facilitera lÂ’analyse ultÃ©rieure de lÂ’usage du site.

Equipe: msdma

BibTeX

@article {
	CLS08,
	title	=	"{Web Content Data Mining : la classification croisÃ©e pour l'analyse textuelle d'un site Web}",
	author	=	"M. Charrad and Y. Lechevallier and G. Saporta and M. Ben Ahmed",
	journal	=	"Revue des Nouvelles Technologies de l'Information (RNTI-E-11)",
	year	=	2008,
	volume	=	1,
	pages	=	"43-54",
}