Travaux pratiques - Visualisation de graphes avec Gephi¶
Références externes utiles :
Exercice 1 - Les Misérables¶
Un célèbre professeur d’informatique (D.E. Knuth) a créé un jeu de données à partir de l’œuvre Les Misérables de Victor Hugo. Les personnages sont reliés dans le graphe s’ils se rencontrent dans un chapitre du roman. Le jeu de données se trouve ici.
Cet exercice est un classique pour découvrir l’interface de Gephi. Dans l’ordre vous allez voir comment :
importer un fichier de données
faire apparaître les étiquettes des nœuds
disposer efficacement les nœuds (manuellement ou avec des algorithmes)
visualiser ou modifier les attributs de certains nœuds
calculer des indicateurs comme la centralité ou la modularité
visualiser ces indicateurs
exporter la visualisation que vous aurez réaliser dans des formats « image » classiques (PNG, PDF, etc.)
Exercice 2 - Communications VoIP¶
Cet exercice est directement issu du billet d’Hervé Piedcoq, qui fournit le jeu de données anonymisé et décrit le scénario de visualisation.
Dans un contexte d’enquête policière, un officier de police judiciaire a récupéré un disque dur de 500 Go, avec deux comptes Windows, utilisant chacun la messagerie Skype, éventuellement avec plusieurs comptes dédiés.
Nous allons voir comment Gephi nous permet de visualiser joliment l’information concernant les communications associées à ces comptes.
Téléchargez les données de conversations (Skype)
Regardez-les avec un éditeur de texte
Ouvrez Gephi et son data lab, avec les paramètres « UTF8 », « virgule (comma) », et import as links. Le fichier contient deux colonnes, Source et Target, gephi se charge de l’import.
Le graphe (dans overview) est gris et terne, il faut l’améliorer. Calculez le degré de chaque nœud, le diamètre du graphe, et la modularité. Utilisez le degré pour la taille des nœuds, la modularité pour la couleur.
Spatialisez avec Force Atlas (valeurs de 500, 10, 10, vitesse 10 et toutes les cases cochées). Observez :-)
Utilisez les filtres pour ne conserver que les degrés entre 2 et 290, pour éliminer quelques nœuds
Exercice 3 - Métro¶
On trouve sur la page de Matthieu Totet un ensemble de fichiers au format GEXF (dérivé d’XML). L’idée de cet exercice est d’explorer le métro parisien. Vous pouvez récupérer le fichier de données, et l’ouvrir dans Gephi. Remarquez que la visualisation initiale repose sur la géographie des stations. Ce n’est peut-être pas la visualisation pertinente pour analyser les relations entre stations. Proposez-en des plus significatives pour mettre en évidence certaines propriétés du réseau et de ses éléments (degrés, centralités, clustering, etc.). Vous pouvez ensuite travailler sur les réseaux métropolitains de Munich ou Shanghai (à télécharger sur la page de Matthieu Totet.
Pour aller plus loin¶
De nombreuses ressources existent en ligne pour se perfectionner sur l’utilisation de Gephi et la visualisation de graphes et réseaux sociaux en général. Parmi les plus importantes, outre le site officiel, citons :
le travail de Clément Levallois qui a développé et mis en ligne quelques précieux tutoriels, présentant notamment l’utilisation de plugins.
Concernant les dépôts publics de données « orientées graphes », citons :
La Koblenz Network Collection de l’université de Coblence (Koblenz)
La page de M.E.J. Newman, un des grands chercheurs du domaine
Le Stanford Network Analysis Project (SNAP) de Jure Leskovec
Social computing Data repository de Arizona State Uinversity (ASU)
Network repository. Une plateforme récente qui propose beaucoup de datasets au téléchargement, accompagnés de tableaux comparatifs. Le module d’analyse n’a pas été testé par l’auteur de ces lignes.
Les jeux de données se retrouvent fréquemment dupliqués sur plusieurs dépôts.
Enfin, évoquons la page Awesome-network-analysis sur Github, qui tente d’organiser les ressources autour de l’analyse de réseaux sociaux : cours, livres, logiciels, bibliothèques de code, etc.