Rechercher

Extraction d’entités nommées visant à l’amélioration d’un système de recommandation pour

Stagiaire (2018/03/01)
Contact : Nicolas Travers Equipe : Vertigo Fichier :
Description :

L’extraction d’entités nommées à partir d'un document est une tâche ardue clairement identifiée depuis plusieurs années par la communauté de systèmes d’information. L'objectif consiste à extraire des objets textuels facilement catégorisables (Personne, Endroit, Raison Sociale, etc..) à partir d'un texte. De nombreuses évolutions technologiques ont permis d'améliorer drastiquement les performances de ces systèmes. On a ainsi pu voir ces systèmes qui reposaient sur des bases de connaissances expertes devenir progressivement moins supervisés. Les meilleures performances sont aujourd'hui obtenues par des systèmes non-super\-visés utilisant des réseaux de neurones (deep-learning). Si ces systèmes sont efficaces, ils montrent leurs limites lorsque le contenu à analyser est multilingue, sans domaine précis et avec un contexte très léger tel que les plateformes de micro-blogging. Utiliser le réseau social des individus, ainsi que le timing des publications semble être un axe porteur pour réussir à identifier les utilisateurs parlant d'un même accident d'avion mais séparés par des dizaines de milliers de kilomètres.


SimGraph est un système de recommandation reposant sur un graphe d'utilisateurs inter-connectés, ainsi que l'historique des publications propagé sur ce graphe. Notre système propose donc un méta-graphe capable d'améliorer la qualité des recommandations tout en restant efficace grâce à une réduction drastique et pertinente de l'espace de recherche.
Toutefois, ce méta-graphe repose en partie sur les historiques des publications, qui de fait s'intéresse au chemin d'un tweet sur le graphe. Intégrer une notion d'extraction d'entité entre les publications permettrait de rapprocher des tweets sémantiquement et améliorer la pertinence des recommandations.

L’enjeu du stage est donc double, dans un premier temps tenter de raffiner un modèle existant d'extraction d'entités nommés afin de l’adapter à la structure d'une plateforme de microblogging (Twitter). Dans un second temps, une fois ces entités efficacement extraites, il s'agira d'évaluer la pertinence de leur utilisation dans l’amélioration de notre système de recommandation. Cette approche est originale dans le fait de produite une similarité sémantique pour un méta-graphe avec un modèle de propagation pour du micro-blogging.