CS59 - PROJET UASB03

Inscription à UASB03

L’inscription à UASB03 est réservée aux élèves qui ont validé les UE STA211, NFE204 et RCP216 ou sont en cours de validation de RCP216.

Contenu du projet

Le projet de l’UA consistera à choisir et traiter un sujet d’analyse de données présentant potentiellement une problématique de passage à l’échelle. Ce sujet devra s’appuyer sur un jeu de données, disponible soit dans le cadre professionnel, soit par une source n’imposant pas de limitation en termes de droits d’utilisation. Le choix du jeu de données est validé par l’accord du responsable de l’UA et des enseignants du certificat (voir à la fin du document). Les sujets proposés devront être différents de ceux ayant déjà fait l’objet d’évaluation dans les autres UE du certificat.

Le travail devra couvrir les aspects suivants :

  1. Choix d’un système de stockage passant à l’échelle par distribution (base relationnelle distribuée, système « NoSQL », moteur de recherche, etc.)
    • chargement du jeu de données choisi dans ce système,
    • étude des connecteurs avec les autres composants logiciels du projet (R, Spark…) ;
  2. Analyses exploratoires, prétraitement, études préalables (normalisation, nettoyage des données, gestion de données manquantes, agrégation…) ;
  3. Choix d’une méthode d’analyse adéquate et mise en œuvre au moins en partie avec Spark ;
  4. Une partie visualisation si elle est utile à la compréhension de l’analyse et des résultats.

Le rapport devra inclure

  • une introduction, contextualisant le problème étudié, présentant de façon claire et précise l’objectif de l’étude ainsi que les données utilisées,
  • un développement, présentant la démarche choisie, les résultats obtenus et leur interprétation,
  • une conclusion, synthétisant l’apport de l’étude vis-à-vis du problème étudié.

Nous n’imposons pas pour cette UA d’effectuer des expérimentations en vraie grandeur sur des données massives stockées dans un système distribué, même si une telle expérimentation est bien entendu bienvenue si vous en avez l’opportunité et les moyens. En revanche, le rapport doit inclure une étude argumentée de la scalabilité de la solution analytique envisagée. Cette étude propose typiquement une architecture globale articulant le système de stockage, des composants analytiques, et l’intégration de ces composants dans une plate-forme de calcul distribuée passant à l’échelle et couplée au système de stockage. En d’autres termes, une mise en œuvre des compétences acquises respectivement en NFE204, STA211 et RCP216. La capacité de cette architecture à soutenir une forte croissance de la volumétrie des données par un ajout, en proportion, de ressources de stockage et de calcul, sans dégradation de la performance globale, doit être justifiée.

Les parties importantes du code ou de ses dérivés (graphiques ou aides à l’interprétation) devront être incorporées au texte. Les programmes, script, codes utilisés seront placés dans une archive ZIP, déposée sur le site indiqué ci-dessous. La taille du rapport doit être de 25 à 30 pages maximum pour la partie rédigée.

Modalités de réalisation

L’UA rentre dans le cadre d’un projet tutoré. Il n’y a donc qu’une session pour l’évaluation. Il est indispensable de prendre contact avec les enseignants et de respecter les délais pour avoir un suivi de votre travail.

Semestre 2 de l’année 2018-2019

Les propositions de sujet doivent être déposées sur https://par.moodle.lecnam.net/mod/assign/view.php?id=94615 (accès réservé aux auditeurs inscrits à UASB03) au plus tard le 10 juin 2019.

Le rapport final (en PDF), le ZIP du code et de tout autre matériel annexe devra être déposé sur https://par.moodle.lecnam.net/mod/assign/view.php?id=94616 au plus tard le 27 septembre 2019.

Semestre 1 de l’année 2018-2019

Le topic est « Projet UASB03 - 2018-2019 semestre 1 » sur le site http://deptfod.cnam.fr/soumissions/.

Les propositions doivent être déposées au plus tard le 16 décembre 2018.

Le rapport final devra être rendu au plus tard le 28 février 2019.

Semestre 2 de l’année 2017-2018

Le topic est « Projet UASB03 - 2017-2018 semestre 2 » sur le site http://deptfod.cnam.fr/soumissions/.

Les propositions doivent être déposées au plus tard le 11 juin 2018.

Le rapport final devra être rendu au plus tard le 28 septembre 2018.

Semestre 1 de l’année 2017-2018

Le topic est « Projet UASB03 - 2017-2018 semestre 1 » sur le site http://deptfod.cnam.fr/soumissions/.

Les propositions doivent être déposées au plus tard le 16 décembre 2017.

Le rapport final devra être rendu au plus tard le 28 février 2018.