# TP Data visualisation en Python

Dans cette séance de TP, nous allons découvrir, pas à pas, différentes manières de visualiser des données en Python. Pour cela, nous allons faire appel à diverses bibliothèques : pandas, numpy, matplotlib, seaborn.

## Données

In [None]:
import pandas as pd

### Iris

Le jeu de données "Iris" contient des informations sur des iris (les plantes), réparties en 3 classes de 50 instances, 1 classe est linéairement séparable des autres, les 2 autres ne le sont pas. Voici la page décrivant les données : https://archive.ics.uci.edu/ml/datasets/iris

In [None]:
import os

# Crée un dossier data
dossier_tp = "data/"

In [None]:
fichier = "iris.data"
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/" + fichier
# url = "http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/tpdataviz/" + fichier est possible aussi, mais iris.csv

if not os.path.exists(dossier_tp + "/" + fichier):
  os.system("mkdir -p " + dossier_tp)

  # Télécharge les données
  sortie = "téléchargement OK" if os.system("wget -q -nc " + url + "-P" + dossier_tp) == 0 else "problème avec le téléchargement des fichiers"
  print(sortie)
else:
  print("fichiers de données présents dans " + dossier_tp)

In [None]:
iris = pd.read_csv(dossier_tp+"/"+'iris.data', names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])
print(iris.head())

In [None]:
len(iris)

### WineReviews

Le jeu de données "Wine Reviews" contient des données sur des vins, c'est-à-dire des caractéristiques (pays d'origine, prix) mais aussi des appréciations par des personnes. La source des données est ici : https://www.kaggle.com/datasets/zynicide/wine-reviews

In [None]:
fichier = "winemag-data-25k.csv"
url = "http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/tpdataviz/" + fichier

if not os.path.exists(dossier_tp + "/" + fichier):
  os.system("mkdir -p " + dossier_tp)

  # Télécharge les données
  sortie = "téléchargement OK" if os.system("wget -q -nc " + url + " -P " + dossier_tp) == 0 else "problème avec le téléchargement des fichiers"
  print(sortie)
else:
  print("fichiers de données présents dans " + dossier_tp)

In [None]:
wine_reviews = pd.read_csv(dossier_tp + "/" + fichier, index_col=0)
wine_reviews.head()

## La bibliothèque Matplotlib

In [None]:
import matplotlib.pyplot as plt

### Nuage de points (scatter plot)

Créons le nuage de points affichant, pour une dimension la longueur du [sépale](https://fr.wikipedia.org/wiki/S%C3%A9pale), et pour l'autre dimension, la largeur de celui-ci.

In [None]:
# create a figure and axis
fig, ax = plt.subplots()

# scatter the sepal_length against the sepal_width
ax.scatter(iris['sepal_length'], iris['sepal_width'])
# set a title and labels
ax.set_title('Iris Dataset')
ax.set_xlabel('sepal_length')
ax.set_ylabel('sepal_width')

Voyons maintenant ce nuage, avec des couleurs correspondant à chaque classe.

In [None]:
# create color dictionary
colors = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}
# create a figure and axis
fig, ax = plt.subplots()
# plot each data-point
for i in range(len(iris['sepal_length'])):
    ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])
# set a title and labels
ax.set_title('Iris Dataset')
ax.set_xlabel('sepal_length')
ax.set_ylabel('sepal_width')

Qu'observez-vous ?

### Courbes (Line chart)

In [None]:
# get columns to plot
columns = iris.columns.drop(['class'])
# create x data
x_data = range(0, iris.shape[0]) # longueur de iris
# create figure and axis
fig, ax = plt.subplots()
# plot each column
for column in columns:
    ax.plot(x_data, iris[column], label = column)
# set title and legend
ax.set_title('Iris Dataset')
ax.legend()


Qu'affiche-t-on avec ce diagramme ? Quel sens cela a-t-il ?

### Histogramme

Affichons les scores (points) des vins.

In [None]:
# create figure and axis
fig, ax = plt.subplots()
# plot histogram
ax.hist(wine_reviews['points'])
# set title and labels
ax.set_title('Wine Review Scores')
ax.set_xlabel('Points')
ax.set_ylabel('Frequency')

### Histogrammes (Bar chart)

In [None]:
# create a figure and axis 
fig, ax = plt.subplots() 
# count the occurrence of each class 
data = wine_reviews['points'].value_counts() 
# get x and y data 
points = data.index 
frequency = data.values 
# create bar chart 
ax.bar(points, frequency) 
# set title and labels 
ax.set_title('Wine Review Scores') 
ax.set_xlabel('Points') 
ax.set_ylabel('Frequency')

## La bibliothèque Seaborn

Seaborn a des "paramètres par défaut" qui rendent les graphiques plus jolis.

In [None]:
import seaborn as sns
sns.set_theme()

### Scatter plot

In [None]:
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)

In [None]:
sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)

### Line chart

In [None]:
sns.lineplot(data=iris.drop(['class'], axis=1))

### Histogramme

In [None]:
sns.distplot(wine_reviews['points'], bins=10, kde=False)

In [None]:
sns.histplot(wine_reviews['points'], bins=10, kde=False)

In [None]:
sns.displot(wine_reviews['points'], bins=10, kde=True)

### Bar chart

In [None]:
sns.countplot(x=wine_reviews['points'])

### Box plot (summary)

Pour "résumer" des jeux de données, on utilise parfois la notion de "7-numbers Summary" : https://en.wikipedia.org/wiki/Seven-number_summary

In [None]:
df = wine_reviews[(wine_reviews['points']>=95) & (wine_reviews['price']<1000)]
sns.boxplot(x='points', y='price', data=df)

## Quelques techniques avancées

### Heatmap

Matplotlib

In [None]:
import numpy as np
# get correlation matrix
corr = iris.corr()
fig, ax = plt.subplots()
# create heatmap
im = ax.imshow(corr.values)

# set labels
ax.set_xticks(np.arange(len(corr.columns)))
ax.set_yticks(np.arange(len(corr.columns)))
ax.set_xticklabels(corr.columns)
ax.set_yticklabels(corr.columns)

# Rotate the tick labels and set their alignment.
plt.setp(ax.get_xticklabels(), rotation=45, ha="right",
rotation_mode="anchor")

In [None]:
# get correlation matrix
corr = iris.corr()
fig, ax = plt.subplots()
# create heatmap
im = ax.imshow(corr.values)

# set labels
ax.set_xticks(np.arange(len(corr.columns)))
ax.set_yticks(np.arange(len(corr.columns)))
ax.set_xticklabels(corr.columns)
ax.set_yticklabels(corr.columns)

# Rotate the tick labels and set their alignment.
plt.setp(ax.get_xticklabels(), rotation=45, ha="right",
         rotation_mode="anchor")

# Loop over data dimensions and create text annotations.
for i in range(len(corr.columns)):
    for j in range(len(corr.columns)):
        text = ax.text(j, i, np.around(corr.iloc[i, j], decimals=2),
ha="center", va="center", color="black")

In [None]:
sns.heatmap(iris.corr(), annot=True)

### Faceting

In [None]:
g = sns.FacetGrid(iris, col='class')
g = g.map(sns.kdeplot, 'sepal_length')

### Pair plot

In [None]:
sns.pairplot(iris)

## Analyse de données de marathon

Le jeu de données "marathon" contient des informations sur les temps de parcours des participants à un marathon (temps de passage à mi-parcours et temps total), ainsi que leur âge, genre

Chargez le dataset dans un dataframe pandas, et affichez les premières lignes.

In [None]:
fichier = "marathon-data.csv"
url = "http://cedric.cnam.fr/vertigo/Cours/RCP216/docs/tpdataviz/" + fichier

if not os.path.exists(dossier_tp + "/" + fichier):
  os.system("mkdir -p " + dossier_tp)

  # Télécharge les données
  sortie = "téléchargement OK" if os.system("wget -q -nc " + url + " -P " + dossier_tp) == 0 else "problème avec le téléchargement des fichiers"
  print(sortie)
else:
  print("fichiers de données présents dans " + dossier_tp)

In [None]:
data = pd.read_csv(dossier_tp + "/" + fichier)
data.head()

Vérifiez les types, avec "dtypes".

Pour manipuler plus facilement les temps nous allons les convertir.

In [None]:
import datetime
from datetime import timedelta

def convert_time(s):
    h, m, s = map(int, s.split(':'))
    return datetime.timedelta(hours=h, minutes=m, seconds=s)

In [None]:
data = pd.read_csv('marathon-data.csv',
                   converters={'split':convert_time, 'final':convert_time})
data.head()

In [None]:
data.dtypes

In [None]:
data['split_sec'] = data['split'].astype(int) / 1E9
data['final_sec'] = data['final'].astype(int) / 1E9
data.head()

In [None]:
data.tail

### Quelques statistiques descriptives

Essayez d'afficher les distributions suivantes :
- âges
- âges, par genre
- temps de parcours, par genre

Optionnel :
- temps intermédiaires
- détails autour de certains "temps" (3h, 3h30, 4h)

Distribution des âges des coureurs et coureuses

Distribution des âges, par genre

Distribution des temps, selon le genre

In [None]:
fig, ax = plt.subplots()
for gender in ["M", "W"]:
    sns.histplot(data[data.gender == gender]['final_sec'], ax=ax, kde=False, label=gender)
plt.legend()

Autour de 4h

### Analyse plus avancée

Comparons les temps intermédiaires et les temps finaux.

In [None]:
with sns.axes_style('white'):
    g = sns.jointplot(data, x="split_sec", y="final_sec",  kind='hex')
    g.ax_joint.plot(np.linspace(4000, 16000),
                    np.linspace(8000, 32000), ':k')

Si les coureurs suivaient la ligne diagonale, ils courreraient au même rythme la 1e et la 2e partie de leur parcours. La plupart courrent plus lentement la 2e partie (la fatigue aidant). Pour celles et ceux qui arrivent à courir plus vite, on parle de negative-split. 

On va créer une colonne pour caractériser, dans une fraction, ce negative split (ou positive-split).

In [None]:
data['split_frac'] = 1 - 2 * data['split_sec'] / data['final_sec']
data.head()

Affichez la distribution de cette fraction. Affichez également une ligne verticale à 0, pour séparer visuellement ceux qui sont en "negative split" de ceux qui sont en positive split.

Comptez combien de coureurs sont en negative-split.

In [None]:
sum(data.split_frac < 0)

Commentez.

Regardez les distributions de cette fraction selon le genre et commentez (kdeplot).

Avec des violinplot, on peut voir les détails de ces distributions. Commentez.

On va regarder les splits avec l'âge.

In [None]:
data['age_dec'] = data.age.map(lambda age: 10 * (age // 10))
data.head()

In [None]:
men = (data.gender == 'M')
women = (data.gender == 'W')

with sns.axes_style(style=None):
    sns.violinplot(x="age_dec", y="split_frac", hue="gender", data=data,
                   split=True, inner="quartile",
                   palette=["lightblue", "lightpink"]);

## Références

- JakeVdP https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html
- Tanner https://gilberttanner.com/blog/introduction-to-data-visualization-inpython