[GS16] Intégrer les données manquantes dans la sélection de variables pour données longitudinales
Conférence Nationale avec comité de lecture :
48 èmes Journées de Statistique,
May 2016,
pp.xx,
Montpellier,
France,
Mots clés: Données longitudinales, données manquantes, imputation multiple, sélection de variables
Résumé:
Les Generalized estimating equations (GEE) sont une méthode de régression utile pour l'analyse marginale en présence de mesures répétées. Dans le contexte longitudinale, il est fréquent de faire face aux données manquantes ainsi qu'à de nombreuses variables mesurées au cours du temps. L'imputation multiple, outil populaire pour le traitement des données manquantes et plus particulièrement les MI-GEE peuvent être utilisés pour l'inférence. Bien que les méthodes pour traiter les données manquantes telles que les MI-GEE aient été mises place, la sélection de variables pour GEE n'a pas été systématiquement développée pour intégrer les données manquantes. Le multiple imputation-least absolute shrinkage and selection operator (MI-LASSO) propose une sélection consistante au sein des jeux de données imputés, mais ne permet pas de prendre en compte les corrélations intra-patient. Nous présentons le MI-PGEE, multiple imputation-penalized generalized estimating equations, extension du MI-LASSO pour les données longitudinales. Cette méthode utilise les GEE pénalisés par une pénalité ridge et des poids adaptatifs qui sont communs à l'ensemble des coefficients de régression estimés de la même variable sur les échantillons multi-imputés. Nous présentons un critère de type BIC pour le choix du paramètre de régularisation. Le MI-PGEE fournit une sélection consistante sur l'ensemble des imputations, ce qui en fait une méthode de sélection pour données longitudinales capable d'intégrer les données manquantes et les corrélations intra-sujet. Une application sur le sous groupe placebo de la base de données Strontium ranelate Efficacy in Knee OsteoarthrItis triAl (SEKOIA) est présentée.