Rechercher

Approche de dénormalisation de schémas pour implantation NoSql

Stagiaire (2018/03/01)
Contact : Nicolas Travers Equipe : Vertigo Fichier :
Description :

Les systèmes d’information doivent faire face à une quantité toujours plus grande de données et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase1, Cassandra2, MongoDB3, Néo4J4, etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.

En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamentale pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en termes de volumes et dynamicité des données, d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

Le but de ce stage est donc de proposer un outil d’aide au choix d’orientation technologique et de conception d’un système d’information, en reposant sur une méthodologie de modélisation des données, simulation de distribution des données et un modèle de coût adaptatif (pour intégrer de nouvelles fonctionnalités NoSQL).

Ainsi, ce sujet s’inscrit à la fois à un niveau d’abstraction pour la modélisation de SI, mais également à un niveau physique pour favoriser l’optimisation du système. C’est deux approches traditionnellement séparées (architecture ANSI-SPARC) se doivent d’interagir finement pour s’adapter à un contexte d’optimisation extrêmement contraint et complexe.