Rechercher

[Hme13] Indexation pour la recherche par le contenu textuel de flux RSS

Mémoire de Thèse : Soutenue le: 10 December 2013, pp. 140, pp.: Directeur: Cédric du Mouza
co-Directeur: Nicolas Travers
Rapporteur 1: Christine Collet
Rapporteur 2: David Gross-Amblard
Membre du jury: Bernd Amann
Membre du jury: Dominique Laurent, : Indexing by content in RSS systems,

Auteurs: Z. Hmedeh

Mots clés: Syndication Web, Flux RSS, Système Publication/Souscription, Indexation, Diversité, Nouveauté

Résumé: Afin de réduire l’intervalle de temps nécessaire entre la publication de l’information sur le Web et sa consultation par les utilisateurs, les sites Web reposent sur le principe de la Syndication Web. Les fournisseurs d’information diffusent les nouvelles informations à travers des flux RSS auxquels les utilisateurs intéressés peuvent s’abonner. L’objectif de la thèse est de proposer un système de notification passant à l’échelle du Web, prenant en considération le grand nombre d’utilisateurs et le débit élevé d’items. Nous proposons un index basé sur les mots-clés des requêtes utilisateurs permettant de retrouver ceux-ci dans les items des flux. Trois structures d’indexation de souscriptions sont présentées. Un modèle analytique pour estimer le temps de traitement et l’espace mémoire de chaque structure est détaillé. Nous menons une étude expérimentale approfondie de l’impact de plusieurs paramètres sur ces structures. Pour les souscriptions jamais notifiées, nous adaptons les index étudiés pour prendre en considération leur satisfaction partielle. Afin de réduire le nombre d’items reçus par l’utilisateur, nous intégrons une deuxième phase de filtrage par nouveauté et diversité considérant l’ensemble d’items déjà reçus par l’utilisateur.

Equipe: isid

BibTeX

@phdthesis {
Hme13,
title="{Indexation pour la recherche par le contenu textuel de flux RSS}",
author="Z. Hmedeh",
year=2013,
pages="140",
address="{CEDRIC Laboratory, Paris, France}",
note="{
Directeur: Cédric du Mouza
co-Directeur: Nicolas Travers
Rapporteur 1: Christine Collet
Rapporteur 2: David Gross-Amblard
Membre du jury: Bernd Amann
Membre du jury: Dominique Laurent}",
}