Travaux pratiques - Transfer learning et fine-tuning

Fonction d’activation ReLU

Pour approfondir la séance précédente, si vous avez le temps.

Dans un premier temps, nous pouvons comparer la fonction d’activation sigmoide utilisée dans les TP précédents et la fonction d’activation ReLU (Rectifed Linear Unit).

Question

  • Reprendre le perceptron à une couche cachée du TP précédent en utilisant une non-linéarité ReLU. Observer le nombre d’itérations nécessaires pour atteindre la convergence du modèle.

  • Reprendre le réseau convolutif du TP précédent en utilisant des non-linéarités ReLU pour les couches convolutives. Observer le nombre d’itérations nécessaires pour atteindre la convergence du modèle.

Conclure sur l’intérêt de la fonction d’activation ReLU.

Transfer Learning et fine-tuning sur EuroSAT

Pour aller plus loin, nous allons nous intéresser aux propriétés de « transfert » des réseaux convolutifs profonds pré-entraînés sur des bases large échelle comme ImageNet. Nous allons nous intéresser au jeu de données EuroSAT, qui est une base d’images contenant :

  • 10 classes (bâtiments industriels, bâtiments résidentiels, cultures saisonnières, cultures permanentes, rivières, lacs & mers, végétation herbacée, routes/autoroutes, pâturages et forêts).

  • L’ensemble d’apprentissage contient environ 27000 images. Il n’y a pas d’ensemble de test prédéfini, nous allons donc la diviser en deux.

  • Les images sont de taille \(64\times64\). Les images que nous allons utiliser sont en couleur (RGB) mais il existe une version multispectrale utilisant 13 longueurs d’onde différentes.

Ce jeu de données est géré nativement par TensorFlow via son module tensorflow-datasets (tfds).

%pip install tensorflow-datasets

Nous pouvons commencer par visualiser quelques images de ce jeu de données. Si c’est la première fois que vous exécutez cette cellule de code, le téléchargement du jeu de données EuroSAT peut prendre quelques minutes (≈80Mo).

import matplotlib.pyplot as plt
import tensorflow_datasets as tfds

eurosat = tfds.load('eurosat', split='train').take(10)

fig = plt.figure(figsize=(18, 6))
for idx, data in enumerate(eurosat):
    fig.add_subplot(1, 10, idx+1)
    plt.imshow(data['image'])
    plt.axis("off")
    plt.title(data['filename'].numpy().decode("utf-8").split("_")[0])
plt.show()

Avec des « petits » volumes de données (de l’ordre de quelques milliers d’images), il est impossible d’entraîner des réseaux de neurones avec autant de paramètres que ceux utilisés pour ImageNet sans devoir se confronter au problème du sur-apprentissage. Toutefois, une solution généralement assez efficace consiste à appliquer de l’apprentissage par transfert. C’est une approche commune et peu coûteuse, qui permet d’exploiter des modèles « sur étagère » sans les ré-entraîner en les utilisant comme extracteur de caractéristiques.

Chargement du modèle ResNet-50 avec Keras

Pour cette séance, nous allons nous appuyer sur une architecture de réseau convolutif qui obtient des performances plus que satisfaisantes sur ImageNet : les réseaux de la famille des ResNet. La compétition ILSVRC en 2015 (classification d’images naturelles sur les 1000 classes de ImageNet) a été remportée par un modèle type ResNet.

Nous allons repartir d’un modèle ResNet-50 dont l’architecture détaillée peut être trouvé dans le code source de Keras. Comme il s’agit d’un modèle assez répandu, il est directement implémenté dans Keras et il n’est pas nécessaire de le redéfinir. Ainsi, en passant par le sous-module keras.applications :

from tensorflow.keras.applications.resnet50 import ResNet50

model = ResNet50(include_top=True, weights='imagenet')

Question

À partir de la documentation de Tensorflow/Keras, déterminer l’utilité des paramètres include_top et weights.

Correction

include_top permet de préciser que l’on souhaite

conserver la couche entièrement connectée finale du modèle. Il peut être utile de la retirer (include_top=False) si l’on souhaite effectuer un fine-tuning du modèle).

weights permet de préciser les poids initiaux du modèle. Ici, en spécifiant "imagenet", Keras initialise le ResNet50 avec des poids pré-entraînés sur le jeu de données ImageNet.

model.summary()

Extraction de deep features

Une première solution pour surmonter le manque d’exemples d’apprentissage est de se servir des réseaux pré-entraînés sur ImageNet pour extraire des descripteurs d’image. En effet, la représentation apprise par les dernières couches du réseau contiennent normalement l’information utile à leur classification. Cette connaissance devrait pouvoir se transférer sur un autre jeu de données.

Nous allons ainsi appliquer le réseau ResNet50 et extraire, pour chaque image de notre nouveau jeu de donnée, les activations de l’avant-dernière couche, c’est-à-dire celle se trouvant juste avant la couche linéaire qui réalise la classification dans les 1000 classes d’ImageNet.

Question

D’après l’architecture du modèle affichée par model.summary(), quelle sera la taille du vecteur de descripteurs ?

Correction

La couche qui précède la couche Dense de prédictions est un average pooling qui produit 2048 activations. Les descripteurs ont donc contenus dans un vecteur de taille 2048.

L’application du réseau sur chaque image de la base produira donc un vecteur de taille \(d\), que l’on appelle aussi deep feature (« caractéristique profonde »). Le modèle que nous allons utiliser est donc notre ResNet50 mais pour lequel nous supprimons la dernière couche. En utilisant l’interface fonctionnelle de Keras, cela correspond à créer un nouveau modèle dont la sortie est la sortie de l’avant-dernière couche du ResNet50, c’est-à-dire la sortie de model.layers[-2] (puisque model.layers[-1] est la dernière couche).

Autrement dit, notre nouveau modèle s’obtient de la façon suivante :

from keras.models import Model
model = Model(inputs=model.input, outputs=model.layers[-2].output)

Question

Afficher l’architecture de ce modèle et vérifier la dimension du descripteur en sortie. Compiler ce modèle ensuite ce modèle. On peut utiliser n’importe quelle fonction de coût et optimiseur car ils ne seront pas utilisés (on n’utilisera le modèle qu’en inférence pour cette partie).

Correction

from keras.optimizers import SGD
model.summary()
model.compile(loss='binary_crossentropy', optimizer=SGD(0.1))

Ensuite, nous pouvons créer les deux jeux de données d’entraînement et d’évaluation de EuroSAT. Comme il n’y a pas de split fourni avec le jeu de données, nous allons en créer un. Dans notre cas, nous allons utiliser la première moitié comme entraînement et la seconde moitié comme test.

Comme précédemment, nous utilisons tfds (tensorflow_datasets) pour définir un jeu de données au format TensorFlow, qui renvoie les couples (image, étiquette) sous forme de tenseurs :

batch_size = 32
train_dataset = tfds.load('eurosat', split='train[:50%]',
                          batch_size=batch_size,
                          shuffle_files=True).take(20)
test_dataset = tfds.load('eurosat', split='train[50%:]',
                         batch_size=batch_size,
                         shuffle_files=True).take(20)

n_train_data = len(train_dataset) * batch_size
n_test_data = len(test_dataset) * batch_size

Remarquons que nous ne conservons que les 20 premiers batches de chaque jeu de données (en apprentissage et en évaluation), ce qui correspond donc à \(20 \times 32 = 640\) examples chacun. Le jeu de données EuroSAT contient bien plus d’images mais cet échantillon sera suffisant pour notre séance de TP. Par ailleurs, cela va nous permettre de mesurer l’intérêt du transfer learning lorsque l’on n’a accès qu’à peu de données.

Question

Compléter le code ci-dessous et itérer sur l’objet train_dataset pour extraire séquentiellement les deep features sur le jeu de données. En itérant, le jeu de données renvoie un dictionnaire d contenant deux entrées : d[image] qui contient le batch d’images et d[label] qui contient le batch des étiquettes de classe.

Comme les images du jeu de données n’ont pas la même taille que les images utilisées pour ImageNet, on prendra soin de redimensionner les images à l’aide de la fonction tf.image.resize de TensorFlow (cf. la documentation).

Correction

import numpy as np
import tensorflow as tf
from tqdm.auto import tqdm

d_size = 2048
X_train = np.zeros((n_train_data, d_size), dtype="float32")
y_train = np.zeros(n_train_data, dtype="uint8")

for idx, batch in enumerate(tqdm(train_dataset)):
    images = batch['image']
    labels = batch['label']
    # Redimensionne les images au format attendu par le ResNet50
    images = tf.image.resize(images, (224, 224))
    bs = len(images)
    # Prédiction du modèle (extraction des deep features)
    features = model.predict(images, verbose=False)
    # Insère les descripteurs dans la matrice
    X_train[batch_size * idx: batch_size * idx + bs] = features
    y_train[batch_size * idx: batch_size * idx + bs] = labels

Question

Faire cette même opération sur test_dataset.

Correction

import numpy as np
from tqdm.auto import tqdm

d_size = 2048
X_test = np.zeros((n_test_data, d_size), dtype="float32")
y_test = np.zeros(n_test_data, dtype="uint8")

for idx, batch in enumerate(tqdm(test_dataset)):
    images = batch['image']
    labels = batch['label']
    # Redimensionne les images au format attendu par le ResNet50
    images = tf.image.resize(images, (224, 224))
    bs = len(images)
    # Prédiction du modèle (extraction des deep features)
    features = model.predict(images, verbose=False)
    # Insère les descripteurs dans la matrice
    X_test[batch_size * idx: batch_size * idx + bs] = features
    y_test[batch_size * idx: batch_size * idx + bs] = labels

Le temps d’extraction des caractéristiques peut être relativement long sur CPU (plusieurs minutes pour traiter l’intégralité du jeu de données par batch de 32 images). L’utilisation d’un GPU accélère considérablement le calcul. Pour éviter de recalculer les deep features, nous allons les sauvegarder à l’aide de NumPy :

output_file = 'deepfeatures_resnet50_eurosat'
np.savez(output_file, X_train=X_train, y_train=y_train,
                      X_test=X_test, y_test=y_test)

Transfert de ImageNet vers EuroSAT

Si vous n’avez pas réussi la partie précédente, ou si jamais le temps de calcul était trop long car vous n’avez pas d’accès à un GPU, vous pouvez télécharger les deep features précalculées à l’adresse suivante : http://cedric.cnam.fr/vertigo/Cours/RCP209/docs/deepfeatures_resnet50_eurosat.npz

Puis vous pouvez les charger en mémoire :

!wget -nc http://cedric.cnam.fr/vertigo/Cours/RCP209/docs/deepfeatures_resnet50_eurosat.npz

features = np.load("deepfeatures_resnet50_eurosat.npz")
X_train = features['X_train']
y_train = features['y_train']
X_test = features['X_test']
y_test = features['y_test']

Dans tous les cas, nous allons définir notre nouveau jeu de données qui prend comme observations les deep features calculées précédemment, et comme étiquettes celles du jeu de données EuroSAT.

Dans cette partie, nous allons considérer les deep features comme les données d’entrée.

Question

En utilisant scikit-learn, réaliser une visualisation t-SNE des deep features ainsi obtenues. On réalisera une projection dans un espace de dimension 2, puis on affichera les features projetées en les colorant en fonction de leur classe.

Qu’observe-t-on? Que peut-on dire des représentations intermédiaires des images ainsi obtenues, par rapport aux images de départ?

Correction

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

tsne = TSNE(n_components=2)
projection = tsne.fit_transform(X_train)

plt.scatter(projection[:,0], projection[:,1], c=y_train)
plt.show()

Les différentes classes sont assez bien séparables dans la projection t-SNE. Autrement dit, les représentations apprises permettent de rendre voisine des images similaires. Les deep features permettent donc d’avoir une meilleure corrélation entre la sémantique et la distance dans l’espace latent.

Question

À l’aide de scikit-learn toujours, entraîner une SVM linéaire simple qui va prédire les étiquettes de classes à partir des deep features. On apprendra la SVM sur le jeu de test (X_train, y_train).

Évaluer le taux de bonne classification (accuracy) de ce classifieur SVM sur le jeu de test (X_test, y_test) à l’aide de la méthode .score().

Correction

from sklearn.svm import SVC

clf = SVC(C=10)
clf.fit(X_train, y_train)
clf.score(X_test, y_test)
y_pred = clf.predict(X_test)

from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

Question

pour approfondir, si vous avez le temps

Complémenter le code ci-dessous et implémenter un réseau simple (percepton à une seule couche) avec Keras. Entraîner ce modèle et évaluer ses performances en classification sur EuroSAT à partir des descripteurs extraits ci-dessus. Que constatez-vous ?

Correction

from keras.utils import to_categorical

y_train_one_hot = to_categorical(y_train)
y_test_one_hot = to_categorical(y_test)

from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD

model = Sequential()
model.add(Dense(10,  input_dim=d_size, activation='softmax'))
model.summary()

model.compile(loss='categorical_crossentropy', optimizer=SGD(0.1), metrics=['accuracy'])
model.fit(X_train, y_train_one_hot, batch_size=batch_size, epochs=20)
scores = model.evaluate(X_test, y_test_one_hot, verbose=0)
print(f"Scores finaux: accuracy = {100*scores[1]:.2f}, loss={scores[0]:.3f}")

Les performances sont quasiment identiques à celle de la SVM linéaire.

Fine-tuning

Pour terminer ce TP, nous allons non plus simplement utiliser le modèle ResNet-50 préentraîné comme extracteur de caractéristiques « sur étagère », mais nous allons le spécialiser sur le jeu de données EuroSAT. Plus précisément, nous allons entraîner un ResNet-50 dont les paramètres seront initialisées à partir des poids appris sur la base ImageNet, puis nous allons entraîner pendant quelques itérations ce modèle sur EuroSAT pour spécialiser ses représentations internes sur la nouvelle base de données. Cela devrait notamment améliorer encore plus ses performances.

Note

L’exécution des apprentissages sur une carte graphique (GPU) est fortement recommandée pour cette partie.

Commençons par charger le modèle depuis Keras en l’initialisant à partir des poids appris sur ImageNet :

from tensorflow.keras.applications.resnet50 import ResNet50

# Chargement du modèle ResNet50 préentraîné sur ImageNet
model = ResNet50(include_top=True, weights='imagenet')

Question

Retirer la dernière couche du modèle (la couche entièrement connectée qui renvoie les prédictions finales) et la remplacer par une nouvelle couche de taille adaptée. On remarquera que le modèle pré-entraîné renvoie 1000 probabilités (une pour chaque classe de ImageNet), tandis que le modèle que l’on souhaite fine-tune doit avoir 10 classes en sortie (10 classe dans EuroSAT).

Correction

from tensorflow.keras import Model
from tensorflow.keras.layers import Dense

# On retire la dernière couche
x = model.layers[-2].output
# On définit une nouvelle couche entièrement connectée que l'on ajoute au modèle
x = Dense(10, activation='softmax', name='label')(x)
model = Model(inputs=model.input, outputs=x)

Nous allons désormais spécifier que toutes les couches du réseau peuvent être apprises, et pas seulement la dernière que l’on vient d’ajouter :

for layer in model.layers:
    layer.trainable = True

Question

Si nous avions spécifié model.layers[i].trainable = False pour toutes les couches sauf la dernière, dans quel mode d’apprentissage serions-nous ?

Correction

Si seule la dernière couche peut être apprise, alors nous sommes exactement dans la même situation que deep features + un réseau avec une seule couche linéaire, c’est-à-dire le transfer learning déjà vu plus haut.

Nous pouvons finalement compiler le modèle comme d’habitude :

from tensorflow.keras.optimizers import SGD

model.compile(loss='categorical_crossentropy', optimizer=SGD(learning_rate=0.01, momentum=0.9), metrics=['accuracy'])

Comme tout le jeu de données EuroSAT risque de ne pas rentrer en mémoire, il est préférable de charger les données à la volée en utilisant un générateur. La classe tensorflow.Dataset gère automatiquement cet aspect pour nous (ainsi que le multiprocessing pour charger les données en parallèle des calculs, de façon asynchrone).

train_dataset = tfds.load('eurosat', split='train[:50%]',
                          batch_size=batch_size,
                          shuffle_files=True,
                          as_supervised=True).take(20)
test_dataset = tfds.load('eurosat', split='train[50%:]',
                         batch_size=batch_size,
                         shuffle_files=True,
                         as_supervised=True).take(20)

train_ds = train_dataset.map(lambda image, label: (tf.image.resize(image, (224, 224)),
                                                   tf.one_hot(label, 10)))

Question

Que fait la méthode map dans le code ci-dessus ?

Correction

La méthode map permet d’appliquer une fonction pour chaque couple (image, étiquette) provenant du jeu de données. Dans notre cas, cela nous permet:

  • de redimensionner les images $64times64$ de EuroSAT aux dimensions attendues par le ResNet-50 ($224times224$),

  • de transformer l’entier qui représente la classe en un encodage one-hot.

Finalement, on peut démarrer le fine-tuning en lançant l’apprentissage du modèle à l’aide de la méthode fit().

model.fit(train_ds, epochs=10)

Question

Évaluer les performances finales du modèle sur le jeu de test de EuroSAT. Commenter par rapport à l’approche précédente de transfer learning.

Correction

scores = model.evaluate(X_test, y_test_one_hot, verbose=0)
print(f"Scores finaux: accuracy = {100*scores[1]:.2f}, loss={scores[0]:.3f}")

Les performances en fine-tuning sont supérieures à celles obtenues par un simple transfer learning.