Questionnaire d’auto-évaluation

Explications

L’enseignement « Ingénierie de la fouille et de la visualisation de données massives » (RCP216) s’intéresse principalement à la mise en œuvre de méthodes de fouille et de visualisation de données dans un contexte de données massives. Pour bien suivre le cours et les travaux pratiques, nous considérons qu’il est nécessaire d’avoir

  • de bonnes connaissances mathématiques et statistiques générales, ainsi qu’une maîtrise de méthodes statistiques pour la fouille de données,

  • une connaissance élémentaire de techniques de gestion de données massives faiblement structurées et de techniques de passage à l’échelle par distribution,

  • la capacité à utiliser le système d’exploitation linux et à écrire de courts programmes dans au moins un langage de programmation.

Le bref questionnaire suivant devrait vous permettre d’évaluer dans quelle mesure vous disposez de ces pré-requis. Vos réponses sont anonymes et non enregistrées par le système. Il est donc nécessaire que vous notiez vous même les numéros des questions auxquelles vous n’avez pas donné la (ou les) bonne(s) réponse(s). A la fin du questionnaire, dans la section Conclusions, vous trouverez des recommandations suivant cette auto-évaluation.

Attention, certaines questions sont formulées de façon plutôt informelle, essayez de répondre quand même.

Questions

Question 1. Qu’est-ce que le rang d’une matrice ?

  1. la somme entre le nombre de lignes et le nombre de colonnes

  2. l’ordre le plus élevé du déterminant non nul qui peut être extrait de la matrice

  3. le nombre d’éléments sur la diagonale principale


Question 2. Quelle condition nécessaire et suffisante doivent satisfaire deux matrices \(\mathbf{A}\) et \(\mathbf{B}\) pour que la multiplication \(\mathbf{A} \cdot \mathbf{B}\) soit possible ?

  1. \(\mathbf{A}\) et \(\mathbf{B}\) doivent être des matrices carrées

  2. le nombre de lignes de \(\mathbf{A}\) doit être égal au nombre de colonnes de \(\mathbf{B}\)

  3. le nombre de colonnes de \(\mathbf{A}\) doit être égal au nombre de lignes de \(\mathbf{B}\)

  4. Aucune de ces conditions


Question 3. Quelle est la relation de définition des valeurs propres \(\lambda\) et vecteurs propres \(\mathbf{u}\) d’une matrice carrée \(\mathbf{A}\) ?

  1. \(\mathbf{A} = \lambda \mathbf{u}\)

  2. \(\mathbf{A} \mathbf{u} = \lambda u\)

  3. \(\lambda \mathbf{A} = \lambda \mathbf{u}\)


Question 4. Comment peut s’exprimer l’inégalité triangulaire pour une distance \(d\) ?

  1. \(d(x,y) + d(y,z) >= d(y,z)\)

  2. \(d(x,y) + d(y,z) =< d(y,z)\)

  3. \(d(x,y) + d(y,z) + d(y,z) >= 1\)


Question 5. On dispose d’un dé équilibré, avec 6 faces numérotées de 1 à 6. On lance le dé deux fois et on fait la somme des résultats. Quelle est la probabilité d’obtenir un total de 4 ?

  1. 1/12

  2. 1/36

  3. 2/36


Question 6. Dans la même situation (deux lancers consécutifs du dé), quelle est la probabilité d’obtenir un total de 4 si le résultat du premier lancer est 3 ?

  1. 1/12

  2. 1/36

  3. 1/6


Question 7. Soit les valeurs entières suivantes : 1, 2, 3, 4, 5, 6, 20. Quelle est la relation entre la moyenne et la médiane de ces valeurs ?

  1. moyenne < médiane

  2. moyenne = médiane

  3. moyenne > médiane


Question 8. Comment appelle-t-on la recherche de groupes de données similaires dans un ensemble de données ? Plusieurs réponses sont possibles.

  1. classement

  2. classification automatique

  3. régression

  4. partitionnement de données


Question 9. Deux modèles décisionnels différents ont été estimés sur les mêmes données d’apprentissage. Lequel préférez-vous utiliser ? Plusieurs réponses sont possibles.

  1. celui qui a l’erreur d’apprentissage la plus faible

  2. celui qui est le moins complexe

  3. celui qui a le meilleur compromis entre erreur d’apprentissage et complexité


Question 10. Dans un espace métrique, le médoïde d’un ensemble est l’élément le plus « central » de l’ensemble, c’est à dire tel que la somme de ses distances aux autres éléments de l’ensemble est la plus faible (parmi tous les éléments de l’ensemble). Quelle est la complexité algorithmique de la détermination du médoïde d’un ensemble de \(N\) éléments ?

  1. \(N\)

  2. \(N^2\)

  3. \(N log(N)\)


Question 11. Lequel ou lesquels des programmes suivants permet(tent) de calculer n! (n factoriel) ? Plusieurs réponses sont possibles.

  1. int fact = n; for (i=1; i < n; i++) fact = fact * i;

  2. int fact = 1; for (i=1; i <= n; i++) fact = fact * i;

  3. int fact = 1; for (i=n; i > 0; i--) fact = fact * i;


Question 12. La syntaxe générale des commandes linux est (les [ ] indiquent des parties qui peuvent être présentes ou non) :

  1. commande [options] [arguments]

  2. commande options [arguments]

  3. commande options arguments

  4. Aucune de ces propositions


Question 13. Parmi les commandes linux suivantes, laquelle permet de lister le contenu d’un répertoire avec des détails concernant les fichiers ?

  1. df -h

  2. dir /l

  3. ls -l


Conclusions

Pour les questions de 1 à 7 : si vous avez répondu correctement à moins de 3 questions alors vous devriez réviser les notions mathématiques de base (d’algèbre linéaire et de probabilités) pour pouvoir suivre convenablement les cours et les travaux pratiques de l’unité d’enseignement RCP216.

Si vous n’avez répondu correctement à aucune des questions 8 et 9, vous devriez suivre un enseignement d’aprentissage statistique et/ou de fouille de données au préalable. Dans le cadre du certificat de spécialisation « Analyse de données massives » et dans le Master de statistiques, un tel enseignement est donné dans « Entreposage et fouille de données » (STA211) et il est fortement conseillé de suivre STA211 avant RCP216. Dans un autre cadre et si votre formation antérieure est plutôt en informatique qu’en statistiques, vous pouvez suivre « Apprentissage statistique : modélisation descriptive et introduction aux réseaux de neurones » (RCP208) suivie éventuellement de « Apprentissage statistique : modélisation décisionnelle et apprentissage profond » (RCP209).

Aucune des questions ci-dessus n’évalue vos connaissances dans le domaine des techniques de gestion de données massives faiblement structurées et des techniques de passage à l’échelle par distribution. Ces connaissances ne sont pas strictement indispensables avant de suivre RCP216 mais les posséder vous facilitera le suivi du cours et la réalisation des projets. Dans le cadre du certificat de spécialisation « Analyse de données massives », ces connaissances sont acquises dans l’enseignement « Bases de données documentaires et distribuées » (NFE204) et il est fortement conseillé de suivre NFE204 avant RCP216.

Si vous n’avez répondu correctement à aucune des questions 10 et 11, vous devez suivre d’abord un enseignement de base en algorithmique et programmation, par exemple au Cnam NFP135 ou NFA031.

Enfin, si vous n’avez répondu correctement à aucune des questions 12 et 13, il vous serait utile de vous familiariser avec le système d’exploitation linux car les travaux pratiques de RCP216 se déroulent sur une plateforme linux (même si en général vous serez en interaction avec Jupyter et non directement avec le système linux). Pour cela, vous pouvez consulter les commandes linux les plus utilisées.