Cédric | Axe « Science des données », 17 juin 2021

Carte non disponible

Date/heure
Date(s) - 17/06/2021
14 h 00 - 16 h 00

Catégories

Séminaire Cédric

Le prochain séminaire Cédric aura lieu jeudi 10 juin. Deux exposés: Nathalie Aussenac-Gilles (IRIT-Université Paul Sabatier) et Manel SOUIBGUI (Cédric- équipe ISID).

Lien vers la réunion Teams

Titre : Des ontologies pour intégrer des données géo-localisées; retour d’expérience de 3 études de cas

Invitée : Nathalie Aussenac-Gilles (IRIT-Université Paul Sabatier)

Résumé : L’équipe MELODI est intervenue successivement dans 3 projets d’envergure (SparkInData, CANDELA et EFFECTOR) pour utiliser des représentations sémantiques au service de l’intégration de données géolocalisées. Dans les 3 cas, il s’agit d’enrichir la description de données volumineuses et précises (des images satellites, des trajectoires de navire …) mais peu intelligibles, en y associant des données soit tirées de leur analyse, soit des données ouvertes, qui puissent faire sens pour des services et, in fine, pour des utilisateurs. Les approches du web sont utilisées avec succès depuis plus de 15 ans dans ce contexte, d’abord pour annoter ces données, les traduire en graphes RDF, ou les requêter via une couche sémantique, mais aussi pour les agréger ou en faciliter l’exploitation. Les approches retenues requièrent toutes la définition (non triviale) d’un vocabulaire ou d’une ontologie pour décrire ces données, qui soit suffisamment riche pour permettre vérifications et inférences, sans trop augmenter le volume ni dégrader les temps d’accès. La représentation du temps et de l’espace y jouent un rôle clé. L’utilisation de ces ontologies pour accéder et utiliser les données peut ensuite se faire de différentes manières, en constituant des graphes de connaissances, en les générant à la demande ou en n’utilisant la couche sémantique que comme une interface facilitant un accès homogène aux différentes données. Nous illustrerons ces problématiques avec les approches que nous avons mises en oeuvre dans les projets SparkInData, CANDELA et EFFECTOR, et présenterons les résultats obtenus en matière d’intégration et d’agrégation de données.

Liens utiles : http://melodi.irit.fr/candela/ http://melodi.irit.fr/sparkindata/ https://www.effector-project.eu/

Nathalie Aussenac-Gilles est directrice de recherche au CNRS. Elle mène ses recherches à l’IRIT depuis 1991, où elle est actuellement co-responsable du département IA de lIRIT avec P. Zaraté après avoir été responsable de l’équipe MELODI entre 2011 et 2020 (http://www.irit.fr/-Equipe-MELODI- ). Situées dans le domaine de l’ingénierie des connaissances et du web sémantique, ses travaux visent à définir des méthodes et des modèles pour la construction d’ontologies et de bases de connaissances afin de décrire l’expertise humaine, des données et des contenus textuels. Son approche, interdisciplinaire, s’appuie sur des collaborations avec des ergonomes et des linguistes. Ses contributions concernent l’extraction d’informations et de connaissances à partir de textes, et l’intégration de données hétérogènes et géolocalisées. Elle a participé à plusieurs projets ANR (en cours Sémantics4FAIR et ObARDI) et européens (EFFECTOR et STARLIGHT) où les ontologies visent à faciliter l’intégration, l’accessibilité et l’interopérabilité des données. Depuis 2017, elle anime le projet DataNoos (https://datanoos.univ-toulouse.fr/) qui fédère des équipes toulousaines pour mettre en place une science ouverte, et fait partie du Comité pour la Science Ouverte (CeSO) de l’UFT-MIP.

Contact : nathalie.aussenac-gilles@irit.fr. https://www.irit.fr/~Nathalie.Aussenac-Gilles/ https://cv.archives-ouvertes.fr/nathalie-aussenac-gilles

Titre : IRIS-DS: A New Approach for Identifiers and References Discovery in Document Stores

Invitée : Manel SOUIBGUI (Cédric- équipe ISID)

Résumé : NoSQL stores offer a new cost-effective and schema-free system. Although it is widely accepted today, Business Intelligence & Analytics (BI&A) remains associated with relational databases. Exploiting schema-free data for analytical purposes is issuing a challenge since it requires reviewing all the BI&A phases, particularly the Extract-Transform-Load (ETL) process, to fit big data sources as document stores. In the ETL process, the join of several collections, with a lack of explicitly known join fields, is a significant challenge. Detecting these fields manually is time and effort consuming, and even infeasible in large-scale datasets. In our work, we study the problem of discovering join fields automatically, and introduce an algorithm to detect both identifiers and references on several document stores. The modus operandi of our approach underscores two core stages: (i) discovery of identifier candidates; and (ii) identifying candidate pairs of identifier and reference fields. We use scoring features and pruning rules based on both syntactic and semantic aspects to efficiently discover true candidates from a huge number of initial ones. Finally, we report our experimental findings that show very promising results.