.. _chap-preambule: ######### Préambule ######### Vous trouvez ici le support de l'unité d'enseignement (UE) « Ingénierie de la fouille et de la visualisation de données massives » proposée au Cnam Paris (code Cnam RCP216). Les informations pratiques en format Cnam se trouvent sur `la fiche descriptive de l'UE `_ (onglet « Informations pratiques »). Ce support est librement et directement accessible. Si vous suivez l'UE RCP216 du Cnam **dans le cadre d'une formation financée par un organisme** (employeur, Pôle emploi, Conseil régional, etc.), il est **indispensable** de passer par `http://lecnam.net `_ pour accéder à ces supports (plutôt que de consulter directement ce site public) afin que des indicateurs de suivi puissent être transmis à cet organisme. `Le support sous forme PDF de la partie fouille de données du cours se trouve ici `_. Ce support PDF est mis à jour moins souvent que le support HTML. Ouverture ========= **COVID-19 :** à partir de février 2021 l'enseignement de RCP216 HTO aura lieu **à distance et non en présentiel, dans les créneaux horaires prévus** dans `emploi du temps `_ (mardi 17h30-19h30 pour le cours et 19h45-21h45 pour les travaux pratiques). Nous utilisons la plateforme **Teams** (accès via `Moodle `_ réservé aux personnes inscrites à RCP216 HTO S2) pour **présenter le cours en direct** et un cluster du Cnam pour réaliser les travaux pratiques (avec échanges en direct avec un enseignant via Teams). Cette unité d'enseignement (UE) est ouverte en présentiel (hors temps ouvrable, HTO) au Cnam Paris depuis 2015, à la fois au premier et au second semestre de l'année universitaire. Elle ouvre également en formation à distance (FOD) **nationale** au premier semestre de l'année universitaire (octobre à février, inscriptions en ligne au Cnam Paris fin septembre). Positionnement de RCP216 dans les parcours ========================================== Dans le `certificat « Analyste de données massives » `_, RCP216 doit être suivie **après** avoir terminé NFE204 et STA211. Cet ordre est **fortement** conseillé ; ne pas le respecter vous compliquera **très significativement** le travail. Dans le `Master Statistique Sciences des données `_ et dans le `Diplôme d'ingénieur Spécialité Bio-informatique `_, RCP216 doit être suivie **après** STA211. Pour quelques notions utiles il faudra se référer au `support en ligne de NFE204 `_. Conditions d'accès ================== L'inscription est sans agrément mais il est important de satisfaire les pré-requis (rubrique « Conditions d'accès » sur `la fiche descriptive de l'UE `_). **Ne sous-estimez pas l'importance de ces pré-requis**, lors des cours et des travaux pratiques (TP) les enseignants ne peuvent pas passer beaucoup de temps sur des rappels. Nous vous proposons d'évaluer vous-même, en utilisant `ce questionnaire web `_, dans quelle mesure vous êtes prêt(e) à suivre cette UE. Ce questionnaire vous permet une **auto-évaluation, anonyme et sans enregistrement des résultats**. .. Pour les cours du soir, afin de permettre la bonne organisation des TP, **les inscriptions pour le semestre en cours seront arrêtées après la seconde semaine de cours et TP**. Organisation de l'enseignement ============================== Chaque séance de cours est suivie par une séance de travaux pratiques (TP). La séance de TP a lieu immédiatement après le cours pour un des groupes de TP et (lorsque cela est possible) le lendemain ou surlendemain soir pour l'autre groupe de TP. Il est envisageable de changer de groupe d'une semaine sur l'autre, en fonction de vos disponibilités. Il est en revanche nécessaire d'avoir des groupes assez équilibrés pour pouvoir travailler seul sur un ordinateur et pour que l'enseignant arrive à répondre rapidement à toutes vos questions. Il est possible d'apporter votre ordinateur portable pour travailler avec, l'enseignant peut éventuellement vous assister avec l'installation de Spark lors des premières séances de TP. Les supports de cours et de TP détaillés, ainsi que les diapositives employées, sont accessibles à partir du menu situé à droite. Tous les supports de cours et de TP mis en ligne peuvent évoluer à tout moment. Pour les TP, les réponses aux questions sont mises en ligne 2 à 3 semaines après la séance et retirées avant le début du semestre suivant. Lors des TP et dans la réalisation des projets d'UE vous pouvez rencontrer des problèmes très divers, allant des fautes de frappe (!) à des anomalies de configuration de logiciels. Pour les résoudre vous avez la possibilité de vous adresser aux enseignants, mais ils ne sont pas toujours disponibles, peuvent ne pas trouver la réponse rapidement ou peuvent avoir des difficultés à régler le problème à distance. Vous rencontrerez en général des problèmes auxquels d'autres se sont confrontés et vous trouverez les solutions sur des forums en ligne, à l'aide d'un moteur de recherche. Dans d'autres cas vous avez aussi la possibilité d'utiliser `le forum de l'UE `_. L'inscription à ce forum est nécessaire pour y poster. Si vous avez une question urgente pour un enseignant, mieux vaut la lui envoyer par courriel directement. L'adresse de courriel est de la forme prénom.nom@cnam.fr. L'équipe enseignante est composée de Michel Crucianu (responsable de l'UE), Raphaël Fournier-S'niehotta, Marin Ferecatu et Pierre Cubaud. Evaluation ========== La note finale est la moyenne non pondérée entre la note d'examen et la note de projet. L'examen est un examen sur table. Pour vous permettre de voir la nature des questions et des réponses attendues, nous avons mis en ligne les sujets des examens de `février 2016 `_, `juin 2017 `_ et `janvier 2019 `_. Nous considérons qu'il n'est pas utile de mettre plus de sujets en ligne. Lors de l'examen vous pouvez consulter comme **seul document écrit** deux feuilles A4 (recto-verso) écrites à la main ; l'objectif est de vous inciter à faire vous-même la synthèse que vous utilisez pendant l'examen. Pour l'examen il y a une session de rattrapage. La planification des examens est accessible `ici `_ (rubrique « Examens »). .. `ici les instructions et la liste des sujets `_. .. `ici, pour information, les instructions et la liste de sujets `_ du semestre **précédent**. Les sujets du semestre en cours sont mis en ligne env. 2 mois après la rentrée. Le projet choisi parmi les sujets que nous proposons doit être réalisé **individuellement**, vous avez `ici les instructions et la liste des sujets `_. Si vous **proposez** un sujet il est envisageable, suivant la complexité de ce sujet, de réaliser le projet en binôme. Afin de réaliser le projet il sera nécessaire d'installer Spark sur un ordinateur auquel vous pouvez avoir accès tous les jours. Pour cela, vous pouvez suivre `ces instructions d'installation `_. Faites cette installation au plus tôt pour avoir le temps de résoudre les éventuels problèmes d'installation avant de commencer à travailler sur le projet. Le travail sur le projet doit démarrer aussi tôt que possible après la validation du choix du sujet, ne le laissez pas pour les deux dernières semaines avant la date de rendu de projet. Travail nécessaire pour valider l'UE ==================================== Le bon suivi de cette UE exige du temps **chaque semaine**. Il y a une séance de cours (2h) et une séance de travaux pratiques (2h) par semaine, le même soir pour un des groupes, d'autres soirs pour les autres groupes. L'évaluation est faite à travers un examen et un projet dont la préparation demande aussi du temps. Enfin, vous aurez peut-être à actualiser certaines connaissances antérieures, cela demande également du temps. Par ailleurs, suivre des cours le soir, après un travail à plein temps, sollicite plus qu'un suivi classique en formation initiale. Liens indispensables ==================== « Quels sont les horaires des enseignements ? » « Où a lieu le TP aujourd'hui ? » « Quand a lieu l'examen ? » « Qui est la/le responsable du certificat Analyste de données massives ? » « Quelle est ma note ? » - à toutes ces questions (et quelques autres) **vous trouverez très facilement les réponses en ligne**, ce serait gentil de ne pas les poser par courriel aux enseignants, qui d'ailleurs pourraient ne pas trouver le temps de vous répondre. `Horaires et lieux des enseignements `_, entrez RCP216, choisissez le semestre et la modalité dans le menu déroulant. Il est également possible d'installer l'application Planni Cnam. `Dates et lieux d'examen `_ rubrique « Examens » (les enseignants ont la même source d'information, ils n'en sauront ni plus, ni plus tôt) `Notes et autres informations concernant votre inscription au Cnam `_ (« Au besoin les auditeurs peuvent écrire à examens.centreparis @ cnam.fr qui se chargera de répondre en cas de question relative à leurs notes »). Sachez que les enseignants ne sont pas autorisés à communiquer directement une note par téléphone ou par courriel. `Informations concernant le certificat Analyste de données massives `_ Ressources ========== `Le point d'entrée `_ pour le certificat de spécialisation « Analyste de données massives » du Cnam Paris. `Instructions pour l'installation de Spark `_. Vous souhaitez approfondir Scala au Cnam ? Regardez l'UE NFP101 : `https://deptmedia.cnam.fr/new/spip.php?rubrique210 `_. Les autres UE du certificat de spécialisation Analyste de données massives : - `Support de cours et TP de l'UE Bases de données documentaires et distribuées (NFE204) `_. - `UE Entreposage et fouille de données (STA211) `_. - `UASB03 : projet tutoré `_. Autres UE du Cnam qui peuvent servir d'introduction (et parfois d'approfondissement) à certains sujets abordés : - `UE Analyse des données : méthodes descriptives (STA101) `_. - `Support du cours Reconnaissance des formes et méthodes neuronales (RCP208) `_. - `Support du cours Apprentissage, réseaux de neurones et modèles graphiques (RCP209) `_. - `Support du cours Multimédia et interaction humain-machine (MUX101) `_. Liens externes ============== `Ressources pédagogiques en statistique à l'INSA de Toulouse, avec de nombreux exemples en R et Python `_.