Rechercher

Contributions à la gestion des données manquantes par imputation multiple.

Lieu: CNAM 31.2.85
Date et Heure de début: 29-09-2017
Description:
 Bonjour,

Histoire de reprendre le rythme de nos rencontres scientifiques, le prochain séminaire de statistique appliquée du CNAM se tiendra le vendredi 29 septembre de 11h à 12h en salle 31.2.85

Nous accueillerons Vincent AUDIGIER (Cnam, équipe MSDMA) , pour une conférence intitulée :

Contributions à la gestion des données manquantes par imputation multiple.

Abstract: Les données manquantes sont fréquentes dans la pratique statistique.
Elles sont problématiques car la plupart des méthodes ne peuvent pas être appliquées
sur un jeu de données incomplet. Une solution classique pour gérer les données manquantes
consiste à recourir à l'imputation multiple. On distingue généralement deux grandes familles
de méthodes d'imputation multiple : les méthodes par modèle joint,
reposant sur l'hypothèse d'une distribution multivariée, commune à l'ensemble des variables,
et les méthodes par imputation séquentielle, qui consistent à spécifier une distribution
conditionnelle pour chaque variable du jeu de données.

Dans un premier temps, nous expliquerons comment les méthodes d'analyse factorielle
peuvent être utilisées pour proposer des méthodes d'imputation innovantes par modèle joint.
En particulier, nous présenterons une méthode d'imputation multiple dédiée aux données qualitatives,
basée sur l'analyse des correspondances multiples (ACM). La variabilité de prédiction des données manquantes
y est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse
au problème de l'explosion combinatoire limitant les méthodes concurrentes
dès lors que le nombre de variables ou de modalités est élevé.

Dans un second temps, nous nous intéresserons à l'imputation des données manquantes
pour des données provenant de différentes études. Ce type de données est très spécifique
dans la mesure où d'une part les données sont structurées sur deux niveaux
(l'individu au premier, l'étude au second) ce qui nécessite des modèles d'imputation adaptés ;
d'autre part, d'une étude à l'autre les variables collectées ne sont pas nécessairement les mêmes,
ce qui conduit à des données manquantes très particulières appelées ``données systématiquement manquantes''.
Nous présenterons notamment de nouvelles méthodes d'imputation multiple séquentielles dédiées
à ce type de données et comparerons leurs propriétés d'un point de vue théorique et via une étude par simulation.
Organise: MSDMA
Contact: Avner Bar-Hen
avnercnam.fr