CS59 - PROJET UASB03

Inscription à UASB03

L’inscription à UASB03 est réservée aux élèves qui ont validé les UE STA211, NFE204 et RCP216 ou sont en cours de validation de RCP216.

Contenu du projet

Le projet de l’UA consistera à choisir et traiter un sujet d’analyse de données présentant potentiellement une problématique de passage à l’échelle. Ce sujet devra s’appuyer sur un jeu de données, disponible soit dans le cadre professionnel, soit par une source n’imposant pas de limitation en termes de droits d’utilisation. Le choix du jeu de données est validé par l’accord du responsable de l’UA et des enseignants du certificat (voir à la fin du document). Les sujets proposés par les enseignants pour le projet de l’UE RCP216 ne peuvent pas être recyclés pour l’UA.

Le travail devra couvrir les aspects suivants :

  1. Choix d’un système de stockage passant à l’échelle par distribution (base relationnelle distribuée, système « NoSQL », moteur de recherche, etc.)
    • chargement du jeu de données choisi dans ce système,
    • étude des connecteurs avec les autres composants logiciels du projet (R, Spark...) ;
  2. Analyses exploratoires, prétraitement, études préalables (normalisation, nettoyage des données, gestion de données manquantes, agrégation...) ;
  3. Choix d’une méthode d’analyse adéquate et mise en œuvre au moins en partie avec Spark ;
  4. Une partie visualisation si elle est utile à la compréhension de l’analyse et des résultats.

Le rapport devra inclure une présentation du problème et des données, une définition de l’objectif de l’étude, la démarche choisie, les résultats obtenus et leur interprétation, ainsi qu’une conclusion.

Nous n’imposons par pour cette UA d’effectuer des expérimentations en vraie grandeur sur des données massives stockées dans un système distribué, même si une telle expérimentation est bien entendu bienvenue si vous en avez l’opportunité et les moyens. En revanche, le rapport doit inclure une étude argumentée de la scalabilité de la solution analytique envisagée. Cette étude propose typiquement une architecture globale articulant le système de stockage, des composants analytiques, et l’intégration de ces composants dans une plate-forme de calcul distribuée passant à l’échelle et couplée au système de stockage. En d’autres termes, une mise en œuvre des compétences acquises respectivement en NFE204, STA211 et RCP216. La capacité de cette architecture à soutenir une forte croissance de la volumétrie des données par un ajout, en proportion, de ressources de stockage et de calcul, sans dégradation de la performance globale, doit être justifiée.

Les parties importantes du code ou de ses dérivés (graphiques ou aides à l’interprétation) devront être incorporées au texte. Les programmes, script, codes utilisés seront placés dans une archive ZIP, transmise au site de gestion des projets (voir ci-dessous). La taille du rapport doit être de 25 à 30 pages maximum pour la partie rédigée.

Modalités de réalisation

L’UA rentre dans le cadre d’un projet tutoré. Il n’y a donc qu’une session pour l’évaluation. Il est indispensable de prendre contact avec les enseignants et de respecter les délais pour avoir un suivi de votre travail.

Les propositions de sujet ainsi que le rapport final doivent être déposées sur le site http://deptfod.cnam.fr/soumissions/. Merci de créer un compte sur ce site, de créer une soumission rattachée au bon topic (voir ci-dessous) et d’associer à cette soumission le résumé, le PDF du rapport final, et le ZIP du code ou de tout autre matériel annexe. Écrire à Philippe Rigaux en cas de difficultés d’utilisation du site.

Semestre 1 de l’année 2018-2019

Le topic est « Projet UASB03 - 2018-2019 semestre 1 ».

Les propositions doivent être déposées au plus tard le 16 décembre 2018.

Le rapport final devra être rendu au plus tard le 28 février 2019.

Semestre 2 de l’année 2017-2018

Le topic est « Projet UASB03 - 2017-2018 semestre 2 ».

Les propositions doivent être déposées au plus tard le 11 juin 2018.

Le rapport final devra être rendu au plus tard le 28 septembre 2018.

Semestre 1 de l’année 2017-2018

Le topic est « Projet UASB03 - 2017-2018 semestre 1 ».

Les propositions doivent être déposées au plus tard le 16 décembre 2017.

Le rapport final devra être rendu au plus tard le 28 février 2018.