Séminaire de l’équipe MSDMA, vendredi 26 Novembre 2021

Carte non disponible

Date/heure
Date(s) - 26/11/2021
11 h 00 - 12 h 00

Emplacement
CNAM - accès 21, salle 21.1.09

Catégories


Speaker : Amel SOUIFI, ATER, équipe MSDMA

Title: Exploitation des données massives pour le pilotage multi-objectifs par performance pour l’industrie 4.0

Abstract:  Les développements technologiques nous amènent vers une quatrième révolution industrielle (Industrie 4.0).  Cette révolution apporte plusieurs changements aux systèmes de production dont la disponibilité de grandes masses de données en temps réel. Dans ce contexte, nous nous intéressons à l’utilité des Big Data dans la prise de décision et particulièrement pour le pilotage de performance.

Nous avons défini des critères de pertinence de données à savoir, l’alignement des données aux objectifs de l’entreprise, le coût, la qualité et la quantité de données.  Pour répondre à la question quelle quantité de données est suffisante au pilotage de performance, nous nous sommes basés sur des méthodes de statistiques multivariées. Si nous représentons l’ensemble des données par une matrice où les lignes représentent les observations et les colonnes désignent les variables (paramètres à surveiller), la réponse à cette question comporte deux éléments : la détermination du nombre d’observations et la détermination du nombre de variables. Pour déterminer le nombre suffisant de variables, nous avons utilisé des méthodes de réduction de dimensionnalité essentiellement l’analyse en composantes principales et le clustering des variables. La définition du nombre d’observations est formulée comme un problème de segmentation de séries temporelles multivariées. En effet les observations sont faites au cours du temps ce qui justifie le choix de séries temporelles et comme on s’intéresse à plusieurs variables, ces séries sont multivariées. Pour déterminer quelles observations rapporter au décideur, nous avons détecté des points de changements dans ces séries (pendant lesquels le système change de comportement) et les observations correspondant à ces changements doivent être transférées au décideur afin de ne pas surcharger le canal de transfert de données. Si on s’intéresse aux performances historiques, cette segmentation sera faite hors ligne. Mais, lorsque des décisions doivent être prises en temps réel, la segmentation de séries temporelles doit être appliquée en ligne.

La problématique de quantité de données n’est pas le seul défi pour les Big Data. La qualité de données est aussi une question fondamentale. Dans cette optique, nous nous sommes intéressés à l’incertitude et l’imprécision de données comme deux composantes de l’imperfection.  Nous avons choisi d’utiliser la théorie de croyance pour modéliser des données à la fois imprécises et incertaines. Le choix de cette théorie se justifie par sa capacité de manipuler à la fois l’incertitude et l’imprécision en représentant les données par des intervalles (imprécision) auxquels on associe des valeurs de confiance (incertitude).

Le processus de traitement des incertitudes liées aux indicateurs de performance peut être résumé ainsi comme suit : modélisation des incertitudes pour les données élémentaires, combinaison des incertitudes de données venant de plusieurs sources, propagation des incertitudes vers les indicateurs de performance et prise de décision.

La modélisation d’incertitude des données est un problème fondamental dans la théorie de croyance. En effet, les données peuvent être subjectives (fournies par des experts) ou statistiques (on dispose d’observations sur la réalisation d’une variable aléatoire X). Si les données sont subjectives, la valeur de confiance peut être déterminée en se basant sur des critères comme le niveau de connaissance de l’expert, son expérience, sa crédibilité, etc.  Pour les données statistiques, la valeur de confiance dans une nouvelle donnée sera de préférence déterminée en fonction des données historiques. Dans la littérature des méthodes basées sur la vraisemblance ou la distance entre une donnée et ses k plus proches voisins (cas des problèmes de classification) sont proposées. Ces méthodes sont plutôt adaptées aux problèmes d’inférence statistique, de classification et de fusion de données. Pour qu’elle s’adapte à notre contexte de calcul de confiance pour les indicateurs de performance, nous avons proposé une nouvelle démarche inspirée de la méthode de distance pour calculer la valeur de confiance pour une donnée.

L’approche proposée consiste d’abord à partitionner les données historiques supposées multivariées en  groupes homogènes via un apprentissage non supervisé. Ces groupes reflètent les différents états du système (par exemple un fonctionnement normal, un fonctionnement dégradé, un arrêt). Une fois les groupes formés, nous affectons une valeur de confiance fournie par un expert (responsable de production par exemple si on s’intéresse aux données de production).  Cette valeur caractérise le niveau de confiance qu’on a dans la réalisation des variables. Maintenant, supposons qu’on a un nouveau vecteur de données et on désire déterminer sa valeur de confiance. On commence par le classer dans l’un des groupes déjà formés. Une fois, on connait sa classe, on lui attribue la valeur de confiance associée à cette classe. Mais cette valeur n’est pas suffisante. En effet, le vecteur de données peut appartenir à un groupe mais il est à la frontière de ce groupe. Donc on calcule une autre valeur  de confiance comme fonction de la distance séparant le vecteur de données de ses k plus proches voisins dans le groupe.  Puis les deux valeurs de confiance sont combinées par la règle de combinaison appelée règle de Dempster afin de trouver une valeur de confiance globale. Cette valeur est définie comme l’incertitude liée au vecteur de données. Si les données proviennent de plusieurs sources, la théorie de croyance offre un cadre intéressant pour fusionner des données incertaines provenant de différentes sources grâce à la règle de Dempster. Une fois l’incertitude des données est modélisée, on passe à sa propagation aux indicateurs de performance via le produit cartésien.

Le calcul d’indicateurs incertains n’est pas suffisant en soi : il faut s’en servir pour aider à la décision et piloter le système. Grâce à l’affectation d’un vecteur de données à un groupe, on pourrait déterminer l’état du système. Si la valeur d’incertitude est inférieure à seuil de confiance fixé, on est dans une « zone de confiance » et le décideur pourrait prendre une décision pour corriger la performance. Si la valeur d’incertitude est supérieure à ce seuil, la décision peut être prise en tenant compte de la gravité d’une mauvaise décision sur le système.

Haut