Rechercher

[Sap15b] Quelle statistique pour les Big Data?

Conférences invitées : Symposium , May 2015, pp.1-2, Pointe à Pitre, France,

Auteurs: G. Saporta

Mots clés: Big Data, statistique, modèles

Résumé: On rappellera tout d'abord le contexte du phénomène "Big Data" avant d'aborder ce qu'un statisticien peut en dire. Les approches inférentielles classiques sont inadaptées aux données massives: dans les tests toute différence devient significative, les intervalles de confiance sont réduits à néant. Le rééchantillonnage,la validation croisée sont alors des outils de prédilection. La recherche de modèles génératifs explicites et parcimonieux (eg par vraisemblance pénalisée) cède la place à celle de modèles prédictifs dont la complexité peut croitre (doucement...) avec le nombre de données disponibles et est régie par la théorie de l'apprentissage statistique . La boite à outils de l'analyste que l'on appelle maintenant "data scientist" combine techniques multivariées classques (SVD ou analyses factorielles, clustering, classification), méthodes issues du machine learning (SVM, boosting, méthodes d'ensemble, …) et approches " sparse " privilégiant la norme L1 pour les données de grande dimension où le nombre de variables excède largement le nombre d'individus comme en génomique. L'ouverture des données de santé et la connection avec les données du web apportent des perspectives prometteuses en matière de pharmacovigilance, de détection de maladies rares et de prévision des épidémies. L'utilisation de ces données soulève des problèmes de respect de la vie privée mais aussi de qualité des prévisions comme l'a rappelé le récent échec de Google Flu Trends La conclusion portera sur le débat lancé par C.Anderson proclamant que le traitement des données massives sonne la fin de la méthode scientifique . Corrélation n'est pas causalité et au-delà des modèles de régression, des modèles causaux sont nécessaires pour savoir comment agir.

Commentaires: "Risques et modèles en épidémiologie humaine, animale et végétale"19 et 20 mai 2015, Université des Antilles

Equipe: msdma

BibTeX

@inproceedings {
Sap15b,
title="{Quelle statistique pour les Big Data? }",
author=" G. Saporta ",
booktitle="{Symposium }",
year=2015,
month="May",
pages="1-2",
address="Pointe à Pitre, France",
note="{"Risques et modèles en épidémiologie humaine, animale et végétale"19 et 20 mai 2015, Université des Antilles}",
}