Rechercher

Bases de Données Avancées

Evenements

Soutenance de Thèse: Hicham Randrianarivo

Titre : Apprentissage statistique de classes sémantiques pour l'interprétation...
15-12-2016 - CNAM - Amphi Paul Painlevé

Fête de la Science

 #FDS2016 Exploration interactive des contenus photographiques  
13-10-2016 - CNAM - 33.1.19

Description

L'équipe de recherche Vertigo s'intéresse aux problèmes soulevés par la gestion de données à grande échelle, avec une orientation forte vers des données dont la structure, explicite ou non, est complexe et nécessite des techniques spécifiques d’approximation, d’extraction et d’interrogation. Il s’agit de collections d’images, de vidéos, de documents audios ou musicaux. Nos objectifs généraux sont d’extraire de l’information, de construire des techniques d’accès efficaces et de proposer de nouvelles méthodes de gestion de données basées sur le contenu (par opposition aux méta-données décrivant ce contenu).

 

Initialement centrée sur des problématiques de bases de données (modélisation, indexation, recherche exacte), l’équipe a évolué pour s’adapter à ces nouveaux défis. Nos travaux se rattachent maintenant essentiellement à la recherche d’information (RI) et à la fouille de données (FD). Nous proposons des méthodes pour extraire des descripteurs, les organiser dans des structures efficaces, en tirer parti pour bâtir des mesures de similarité robustes, et enfin exploiter l’ensemble pour produire des classifications, des regroupements et des recherches de motifs saillants.

Axe 1. Grandes bases d’images et de vidéos

Ces recherches s’inscrivent dans un contexte caractérisé par une croissance explosive de la production de contenus numériques, une révolution du stockage numérique (permettant de conserver - facilement accessibles - des masses de contenus au-delà de l'utilisation pour laquelle ils avaient été produits ou collectés au départ) et le développement rapide des capacités de transmission numérique (qui rend possible la diffusion distribuée et le partage à distance de grands volumes de contenus). Les travaux de Vertigo sur ce thème ont démarré en 2002 avec le recrutement de Valérie Gouet-Brunet et ont été consolidés à partir de 2005 avec l'arrivée de Michel Crucianu. Nous nous concentrons sur la structura-tion, à partir du contenu visuel, de grandes bases d’images et de vidéos, ainsi que sur la recherche par le contenu dans de telles bases. Ce domaine, en forte expansion, nécessite une expertise à la fois en analyse d'images, en bases de données et en apprentissage statistique.

Axe 2. Données sur le Web

Le nombre de sites, de documents, de moyens de communication, de contenus très hétérogènes est en croissance continuelle sur le réseau Internet. De fait, le passage à l'échelle en termes de recherche d'information devient un véritable défi. Dans ce contexte, sur la période, nous avons d'abord travaillé sur l'intégration de données XML très hétérogènes, le couplage données-services Web et les archi-tectures pair à pair, qui correspondaient à des thèmes peu prospectés par les équipes françaises en bases de données. Plus récemment, nous avons réorienté et concentré nos recherches sur la gestion et l’interrogation de flux RSS et la recherche par le contenu textuel notamment dans le contexte RSS avec Cédric du Mouza de l'équipe ISID, en collaboration avec le LIP6 et le LSIS de Toulon (PPF Wisdom, ANR ROSES) thème qui a notre connaissance est abordé en France uniquement dans le cadre de ROSES.

Axes terminés

Bases de données spatio-temporelles (Cédric du Mouza, Michel Scholl): thème majeur depuis la création par Michel Scholl de Vertigo (1989), ce thème s'est terminé avec la thèse de Cédric du Mouza (2005, recruté plus tard dans l'équipe ISID), sur un langage pour suivre en temps réel des objets mobiles [MRS05a, MRS05b, MRS06, MRS07], et avec une étude courte un peu plus récente sur un modèle de données spatio-temporelles en collabora-tion avec Télécom ParisTech et un chercheur portugais [MCS08]. Cet axe un peu ancien ne sera pas détaillé dans la suite.

Tatouage de données structurées (David Gross-Amblard, Julien Lafaye): Cette activité s'est terminée avec la mutation à l'université de Dijon de David Gross-Amblard (Octobre 2006) et la soutenance de la thèse de Julien Lafaye (novembre 2007). Seuls chercheurs en France à étudier le tatouage de don-nées et de documents XML [GL006], ils ont défini des algorithmes de ta-touage avec pour objectif la traçabilité des données, caractérisé des algorith-mes de tatouage [L07], obtenu des résultats de complexité [L07a], développé le prototype Watermill [LGA08] et étudié des applications géographiques [LBGA07, LBG07a]. Cette recherche avait pour cadre l’ACI Sécurité Tadorne dont David Gross-Amblard était le coordinateur national.

Les recherches menées et les résultats obtenus sont détaillés dans chaque axe.

Depuis 2005

  • David Gross-Amblard a quitté le CNAM pour rejoindre l’université de Dijon (2006).
  • Nicolas Travers a été recruté comme maître de conférences (2007).
  • Dan Vodislav a obtenu son HDR (UPMC 2007) et a été recruté comme professeur à l’Université Cergy-Pontoise (09/2008).
  • Valérie Gouet-Brunet a obtenu son HDR (2008, UPMC).
  • Stanislav Barton a été recruté en post-doctorat (en décembre 2008 pour 1 an), pour travailler dans le projet DISCO (ANR MDCO 2008-2010).
  • Michel Scholl a passé 6 mois au LSIS (Toulon) dans le cadre d’un CRCT (09/2007 - 02/2008).
  • Valérie Gouet-Brunet a obtenu un CRCT de 6 mois (CNU, 02-07/2008), qui lui a permis de visiter le New Jersey Institute of Technology (Etats-Unis, 15/03/2008 - 15/04/2008) et l’Université UNICAMP (Brésil, 08/2008).
  • Michel Crucianu a obtenu un CRCT de 6 mois (CNAM, 03-08/2009) lors duquel il a passé 1 mois au NJIT (Etats-Unis, 15/03/2009 - 15/04/2009).

Le GR est ou a été impliqué

  • dans un projet RNTL (WebContent) avec la société Xylème et l’INRIA Saclay (Gemo) ;
  • dans un projet européen (EDOS) avec INRIA Saclay (Gemo) et Mandriva ;
  • dans une collaboration avec l’INRIA Rocquencourt (Imedia) ;
  • dans 3 ACI (Masses de Données : BIOTIM, SemWeb. Sécurité : TADORNE) ;
  • dans 1 projet RIAM (Sigmund, 2006-2008) ;
  • dans un contrat de recherche avec la société Survision (2006-2009) ;
  • dans 1 projet du programme « Paris, objet de recherche » de la Ville de Paris (« Paris en images »), 2007-2009 ;
  • dans 2 nouveaux projets ANR (MDCO : ROSES et DISCO, 2008-2010).
  • dans 1 collaboration CAPES-COFECUB : AMIB (2010-2013).

Dans le GR ont été soutenues 6 thèses de doctorat au CNAM et 2 habilitations à diriger des recherches. Quatre doctorats sont en cours au CNAM (inscriptions à l’EDITE).

group