Cours - Recherche par similarité. Application aux systèmes de recommandation¶

[Diapositives du cours : 2 par page] [Diapositives du cours : 1 par page]

Dans la première partie de ce chapitre nous examinerons de plus près la recherche et la jointure par similarité, en poursuivant d’abord l’étude de LSH par des fonctions adaptées à la distance cosinus et en considérant ensuite les phénomènes liés à la « malédiction de la dimension » (curse of dimensionality), ainsi que leur impact sur l’utilisation de la similarité.

Dans la seconde partie nous nous intéresserons aux systèmes de recommandation, qui sont une application importante de l’analyse et modélisation de données massives. Après une étude de l’utilisation dans ce contexte de méthodes basées sur la similarité, nous présenterons des méthodes plus élaborées qui emploient des factorisations matricielles.

Systèmes de recommandation¶

« Don’t listen to your feelings, listen to the algorithm, it knows you better. »

(an algorithm)

Les systèmes de recommandation (SRec) visent à proposer des « articles » (items) à des « utilisateurs » (users). Employés au départ dans le commerce en ligne, leur domaine d’application ne cesse de s’élargir : musique, films, livres, sites web, blogs, destinations de voyages, applications pour mobiles, publications de recherche, etc. Les SRec intègrent des informations de différents types, issues de plusieurs sources, explicites ou implicites : caractéristiques des utilisateurs et des articles, filtrage collaboratif, liens sociaux entre utilisateurs, données issues des capteurs (par ex. GPS), etc.

Nous examinerons dans la suite de ce chapitre la problématique des SRec et passerons en revue les principales familles de méthodes utilisées pour obtenir des recommandations. Une synthèse des premières approches employées pour les SRec en général peut être trouvée dans [BOH13]. Quelques méthodes qui exploitent l’apprentissage profond sont présentées dans [ZYS17]. Il est également intéressant de lire [BGL15], une synthèse sur les SRec de publications de recherche.

Le problème et les approches¶

Dans un SRec nous sommes en présence de deux types d’entités, les utilisateurs et les articles. Chaque utilisateur peut choisir et/ou noter un ou plusieurs articles. Les données disponibles concernant les choix passés (ou les notes) sont représentées sous la forme d’une matrice d”« utilités », chaque utilisateur étant associé à une ligne et chaque article à une colonne, comme dans la figure suivante :

\[\begin{split}\begin{array}{c|cccccccc} & A1 & A2 & A3 & A4 & A5 & A6 & A7 & \ldots\\ \hline U1 & 9 & & & & & & 2 & \\ U2 & 2 & & 8 & & & & 7 & \\ U3 & & & & & 4 & & & \\ \ldots & & & & & & & & \end{array}\end{split}\]

Lorsque les données disponibles correspondent à des informations explicites, par ex. issues d’achats effectués ou de notes données, cette matrice est très creuse. Si des informations implicites sont également présentes, par ex. issues des durées de visualisation des pages décrivant des articles (un utilisateur a tendance à regarder plus longtemps la description d’un article qui l’intéresse et éventuellement à revenir sur cette description lors de sessions successives), alors la matrice sera (un peu) moins creuse.

L’objectif général d’une méthode de recommandation est de prédire les valeurs manquantes de la matrice, c’est à dire les choix que ferait chaque utilisateur s’il devait se prononcer sur chaque article ou les notes qu’il donnerait s’il devait évaluer tous les articles. Naturellement, lorsque la matrice contient des notes, ce sont en général les valeurs élevées prédites qui intéressent car elles correspondent (si la prédiction est fiable) à des articles que l’utilisateur apprécierait et que le SRec pourrait donc utilement lui proposer.

Les SRec emploient une des approches suivantes :

Recommandation par similarité de contenu (content-based filtering). Pour ces méthodes, un accès à des descriptions des articles est indispensable. Le principe est le suivant : à partir des descriptions des articles choisis ou notés par un utilisateur (ainsi que d’éventuelles informations concernant l’utilisateur directement), un profil de l’utilisateur est construit ; sont ensuite proposés à l’utilisateur des articles dont les caractéristiques sont similaires à son profil. Plus le nombre d’article choisis ou notés par un utilisateur est élevé, plus le profil ainsi obtenu est fiable (et donc les recommandations faites sur la base de ce profil). La recommandation étant réalisée à partir des caractéristiques des articles, il est facile d’identifier des articles de substitution lorsque l’article envisagé n’est plus disponible. En revanche, il est clairement difficile d’extrapoler d’un domaine à un autre. Par exemple, connaître les lectures préférées d’un utilisateur donne peu d’indications sur ses goûts musicaux.

Recommandation par filtrage collaboratif (collaborative filtering). Ces méthodes se basent uniquement sur la matrice d’utilités, aucune connaissance intrinsèque des articles n’est nécessaire. La matrice d’utilités permet de définir des similarités entre utilisateurs à partir des articles choisis, ainsi que des similarités entre articles à partir des utilisateurs qui les ont choisis. Le principe est alors de proposer à un utilisateur des articles similaires à ceux qu’il a déjà choisi (ou bien noté), ou alors des articles choisis (ou bien notés) par les utilisateurs similaires. Les similarités n’étant pas liées aux caractéristiques intrinsèques des articles, les prédictions dans un domaine peuvent être faites à partir de données concernant d’autres domaines (l’hypothèse d’une cohérence relative inter-domaines est sous-jacente). En revanche, l’ignorance des caractéristiques des articles rend difficile la substitution d’articles manquants.

Recommandation hybride. Bien entendu, lorsque l’on possède à la fois des descriptions des articles et une matrice d’utilités il est souhaitable de tirer profit de ces deux sources d’information pour améliorer les prédictions. Les SRec actuels emploient en général des combinaisons de méthodes suivant les deux approches précédentes.

Recommandation par similarité de contenu¶

Suivant la nature des articles, leur description peut inclure des variables diverses. On rencontre souvent des variables ensemble, par ex. pour des films de cinéma les acteurs, les prix obtenus ou l’ensemble de mots d’une description textuelle. Les variables nominales, dont les modalités correspondent souvent aux sous-catégories d’une catégorie, sont également présentes (par ex. le genre d’un film). Enfin, des variables quantitatives peuvent avoir leur importance, par ex. pour des films de cinéma le budget de réalisation ou les recettes lors de la sortie en salles.

Les variables qui interviennent dans les descriptions peuvent être pondérées par des méthodes simples, par ex. term frequency x inverse document frequency (degré de présence x « potentiel discriminant ») pour les éléments d’ensembles, voir le chapitre suivant. D’autres méthodes de pondération tiennent compte d’un « potentiel explicatif » défini par exemple à partir de l’homogénéité des notes données par des utilisateurs similaires. Enfin, des méthodes de pondération plus complexes peuvent être utilisées lorsque, plutôt qu’une simple recherche par similarité, des modèles décisionnels sont mis en œuvre.

Des méthodes de réduction de dimension sont souvent appliquées en présence de variables de type ensemble avec un grand nombre d’éléments (par ex. description textuelle). Cela permet de résumer les variables initiales par un plus petit nombre de variables (révéler des « facteurs »), ce qui diminue en général le « bruit » présent dans les descriptions et réduit la gravité de la malédiction de la dimension.

La recommandation par similarité de contenu peut employer

La recherche par similarité : sont proposés à l’utilisateur des articles dont les descriptions sont les plus similaires au profil de l’utilisateur. Dans ce cas, le profil d’un utilisateur possède les mêmes variables que les descriptions des articles afin de permettre une comparaison directe avec ces descriptions. La représentation d’un profil est un vecteur qui a la même structure que les représentations des descriptions des articles. Le profil d’un utilisateur est en général obtenu comme la moyenne des descriptions des articles choisis et/ou notés par cet utilisateur. Dans le calcul de la moyenne, les descriptions des articles notés sont pondérées par les notes accordées par l’utilisateur. Des variantes de calcul consistent à approcher le profil des articles bien notés par l’utilisateur tout en l’éloignant des articles qu’il a mal notés. L’utilisation typique est la suivante : lorsqu’un utilisateur se connecte, son profil est employé comme une requête dans la base des articles disponibles et les articles les plus similaires sont affichés. Il est toutefois possible d’utiliser de façon différente les vecteurs qui représentent les descriptions des articles et les profils des utilisateurs. Par exemple, une jointure par similarité entre l’ensemble des descriptions d’articles et l’ensemble des profils d’utilisateurs peut retourner un ensemble de paires <article, utilisateur> très pertinentes qui peuvent faire l’objet d’une campagne promotionnelle passant par l’envoi de courriels (push) alors que les utilisateurs ne sont pas connectés.

Des modèles décisionnels : sont proposés à l’utilisateur les articles pour lesquels le modèle décisionnel spécifique à l’utilisateur prédit les meilleures notes. Dans ce cas, le profil d’un utilisateur est un modèle décisionnel construit à partir des articles choisis et/ou notés par cet utilisateur. Ce modèle peut employer aussi des variables prédictives spécifiques aux utilisateurs (par ex. catégorie socio-professionnelle, plate-forme matérielle et logicielle employée pour se connecter au site, âge, localisation géographique, etc.) et non simplement leurs choix d’articles. L’emploi de modèles décisionnels permet d’obtenir des fonctions de décision (de recommandation) plus complexes que la simple similarité vectorielle. En revanche, la construction d’un modèle décisionnel fiable exige un volume de données plus important par utilisateur qu’une simple recherche par similarité. Pour disposer de plus de données, il est préférable de développer un modèle par groupe d’utilisateurs très similaires plutôt que par utilisateur individuel.

La disponibilité de descriptions des articles permet de définir des critères pragmatiques complémentaires pour améliorer les recommandations, par ex. réduire la redondance des propositions (éviter de proposer plusieurs articles très similaires entre eux) ou augmenter la diversité (proposer des articles appartenant à des « familles » différentes plutôt que plusieurs articles d’une même famille).

Recommandation par filtrage collaboratif¶

Ces méthodes considèrent que les utilisateurs, comme les articles, sont décrits essentiellement (ou exclusivement) par le contenu de la matrice de données \(\mathbf{X}\) (issue des notes ou des choix passés) :

\[\begin{split} \begin{array}{c|cccccccc} & A1 & A2 & A3 & A4 & A5 & A6 & A7 & \ldots\\ \hline U1 & 9 & & & & & & 2 & \\ U2 & 2 & & 8 & & & & 7 & \\ U3 & & & & & 4 & & & \\ \end{array}\end{split}\]

Chaque utilisateur est associé à une ligne et chaque article à une colonne. On note par \(n_u\) le nombre d’utilisateurs et par \(n_a\) le nombre d’articles. \(\mathbf{X}\) est donc une matrice \(n_u \times n_a\). La matrice de données peut subir diverses transformations (par exemple des normalisations) avant d’être utilisée pour obtenir les recommandations.

Nous pouvons mentionner plusieurs familles de méthodes de filtrage collaboratif :

Méthodes basées sur la similarité (memory-based) : la similarité entre utilisateurs ou entre articles est employée pour obtenir des recommandations. Nous remarquerons que les utilisateurs (lignes de la matrice de données) et les articles (colonnes de la matrice de données) ne sont pas directement comparables.
La matrice de données est « normalisée » : la moyenne des notes présentes devrait être nulle pour chaque utilisateur (ligne de la matrice) afin d’équilibrer les « niveaux d’exigence » des utilisateurs. Les moyennes des notes présentes restent en général différentes entre articles (colonnes de la matrice), ces écarts reflètent des différences de (perception de la) « qualité intrinsèque » entre articles. On parle de « profils » lignes (ou « profils » utilisateurs) et de « profils » colonnes (ou « profils » articles). Pour comparer les lignes entre elles ou les colonnes entre elles sont employées en général la distance cosinus ou la corrélation linéaire (qui est une mesure de similarité et non une distance). On peut distinguer deux types de méthodes :
1. User-based (la similarité est calculée entre utilisateurs) : (i) trouver les utilisateurs les plus « représentatifs » (par ex. les k les plus similaires) pour l’utilisateur cible \(u\), ensuite (ii) agréger leurs choix pour faire des propositions à \(u\) (par ex. les articles les plus choisis ou les mieux notés par ces \(k\) « voisins »). Une difficulté importante de cette approche est la présence d’une grande diversité parmi les utilisateurs : par ex. \(x\) apprécie la musique classique et le jazz, alors que \(u\) apprécie la musique classique mais pas le jazz ; si la matrice de données contient pour \(u\) uniquement des données concernant la musique classique, \(u\) recevrait des propositions de jazz (faites à partir de \(x\) qui est très similaire à \(u\)) qui seraient erronées.
2. Item-based (la similarité est calculée entre articles) : (i) répertorier les articles \(a_i\) choisis (ou bien notés) par l’utilisateur \(u\), ensuite (ii) proposer à \(u\) les articles les plus similaires aux \(a_i\) (c’est à dire choisis ou bien notés ensemble par d’autres utilisateurs). Comme le nombre d’utilisateurs est souvent supérieur au nombre d’articles, la dimension des « profils » articles est supérieure à la dimension des « profils » utilisateurs, la malédiction de la dimension peut donc se manifester avec plus de force pour les « profils » articles.
Méthodes basées sur un modèle (model-based) : un modèle (par ex. catégorisation des utilisateurs et des articles, facteurs explicatifs latents) est obtenu à partir de la matrice de données et sert à la prise de décisions de recommandation. Une telle méthode est présentée avec plus de détails dans la suite.
Méthodes hybrides. Ces méthodes sont des combinaisons de méthodes des deux familles précédentes.

Le « démarrage à froid » (cold start) est l’étape initiale de fonctionnement d’un système de recommandation, durant laquelle la matrice des utilités est vide ou vraiment très creuse car très peu d’utilisateurs ont employé le système. Le démarrage à froid exige des approches spécifiques, comme par exemple exploiter le profil démographique des utilisateurs et des connaissances a priori qui lient profil démographique et préférences, ou tirer profit des préférences explicitement renseignées par certains utilisateurs lors de la création de leurs profils. Il est également envisageable de proposer à tous les utilisateurs comme recommandation « par défaut » les items les plus populaires et/ou les plus récents.

Filtrage collaboratif basé sur la factorisation matricielle¶

Le principe de ces méthodes est de chercher des facteurs latents, en nombre relativement faible (souvent de l’ordre de \(10^2\)), qui « expliquent » le contenu de la matrice de données. Dans ce cadre, les articles comme les utilisateurs sont décrits par des vecteurs de même dimension, cette dimension étant donnée par le nombre de facteurs latents considérés. Dans la description d’un article, les composantes correspondent aux valeurs prises par les facteurs latents respectifs pour cet article. Dans la description d’un utilisateur, les composantes correspondent aux contributions des facteurs latents respectifs à la note que l’utilisateur donnerait à un article.

Une des premières méthodes de factorisation explorées a été la décomposition en valeurs singulières (Singular Value Decomposition, SVD) de la matrice de données (ou utilisateurs-articles) \(\mathbf{X}\), avec approximation de rang réduit \(m\) :

(2)¶\[\mathbf{X} \approx \mathbf{U} \cdot \Sigma \cdot \mathbf{A}^t\]

Ici \(\Sigma\) est une matrice diagonale \(m \times m\) qui donne sur sa diagonale principale les poids des \(m\) facteurs. Chacune des \(n_a\) colonnes de \(\mathbf{A}^t\) est la représentation « réduite » (de dimension \(m\), égale au nombre de facteurs) d’un article. Chacune des \(n_u\) lignes de \(\mathbf{U}\) (de dimension \(m\)) est la représentation « réduite » d’un utilisateur. La figure suivante illustre cette factorisation :

Cette méthode souffre d’un problème majeur : la décomposition exige une matrice complète, or la matrice utilisateurs-articles (\(\mathbf{X}\)) est très creuse, les valeurs absentes sont manquantes et non équivalentes à des 0. Une décomposition qui assimilerait les valeurs absentes à 0 donnerait une solution non pertinente.

Il est donc nécessaire de tenir compte exclusivement des données présentes dans la matrice. Avec une matrice utilisateurs-articles très creuse le problème est sous-déterminé, une solution de régularisation est nécessaire.

La factorisation régularisée (voir par ex. [Pat07], [KBV09]) correspond à une famille de méthodes qui cherchent une approximation de rang \(m\) réduit tenant compte seulement des valeurs présentes dans la matrice \(\mathbf{X}\) et incluant une technique de régularisation. Le problème d’optimisation correspondant fréquemment employé est le suivant :

(3)¶\[\min_{\mathbf{u}_i, \mathbf{a}_j} \sum_{\textrm{Present}(i,j)} (x_{ij} - \mathbf{u}_i^T \cdot \mathbf{a}_j)^2 + \lambda(\sum_i\left\|\mathbf{u}_i\right\|^2 + \sum_j\left\|\mathbf{a}_j\right\|^2)\]

Cette factorisation est illustrée dans la figure suivante :

Ici \(\mathbf{u}_i\) est la représentation « réduite » (de dimension \(m\), égale au nombre de facteurs) d’un utilisateur et \(\mathbf{a}_j\) est la représentation « réduite » (de dimension \(m\)) d’un article. La constante \(\lambda\) contrôle la régularisation.

Le problème de minimisation est résolu par des algorithmes itératifs comme les moindres carrés alternés (dans Spark, par exemple) ou la descente de gradient stochastique.

Après avoir trouvé les \(\mathbf{u}_i\) et \(\mathbf{a}_j\) pour tous les utilisateurs et respectivement tous les articles, la prédiction de la note que devrait donner l’utilisateur \(k\) à l’article \(l\) (note inconnue) est :

(4)¶\[x_{kl} = \mathbf{u}_k^T \cdot \mathbf{a}_l\]

La factorisation régularisée (3) et l’algorithme de résolution itérative associé permettent d’intégrer dans le modèle d’autres aspects (voir par ex. [KBV09]) comme :

La modélisation d’un biais par utilisateur et d’un biais par article. Plutôt que d’employer la solution simple, mentionnée plus haut, de « normalisation » de la matrice de données (imposer, pour chaque ligne, une moyenne nulle pour les notes présentes afin d’équilibrer les niveaux d’exigence des utilisateurs), il est possible d’estimer les biais de notation par utilisateur et par article. Le problème d’optimisation correspondant est

\(\min_{\mathbf{u}_i, \mathbf{a}_j, b_{\mathbf{u}}, b_{\mathbf{a}}} \sum_{\textrm{Present}(i,j)} (x_{ij} - \mu - b_{\mathbf{u}_i} - b_{\mathbf{a}_j} - \mathbf{u}_i^T \cdot \mathbf{a}_j)^2 + \lambda\left[\sum_i(\left\|\mathbf{u}_i\right\|^2 + b_{\mathbf{u}_i}^2) + \sum_j(\left\|\mathbf{a}_j\right\|^2 + b_{\mathbf{a}_j}^2)\right]\)

où \(\mu\) est la moyenne globale des notes présentes, \(b_{\mathbf{u}_i}\) le biais pour l’utilisateur \(i\) et \(b_{\mathbf{a}_j}\) le biais pour l’article \(j\).

La modélisation de niveaux de confiance dans les notes présentes dans la matrice de données. En effet, il peut être nécessaire de moduler l’impact des différentes notes à partir de connaissances concernant les utilisateurs, le mode d’acquisition de l’information, etc. Le problème d’optimisation est dans ce cas

\(\min_{\mathbf{u}_i, \mathbf{a}_j, b_{\mathbf{u}}, b_{\mathbf{a}}} \sum_{\textrm{Present}(i,j)} c_{ij} (x_{ij} - \mu - b_{\mathbf{u}_i} - b_{\mathbf{a}_j} - \mathbf{u}_i^T \cdot \mathbf{a}_j)^2 + \lambda\left[\sum_i(\left\|\mathbf{u}_i\right\|^2 + b_{\mathbf{u}_i}^2) + \sum_j(\left\|\mathbf{a}_j\right\|^2 + b_{\mathbf{a}_j}^2)\right]\)

où \(c_{ij}\) est la confiance dans la note donnée par l’utilisateur \(i\) à l’article \(j\) ou, plus généralement, une pondération (dont la signification n’est pas nécessairement celle de degré de confiance) de cette note. Les \(c_{ij}\) sont des données d’entrée de l’algorithme et non obtenus par l’optimisation.

Filtrage collaboratif avec Spark¶

La méthode mise en œuvre dans Spark est la factorisation régularisée (3) avec une modification de la régularisation suivant [ZWS08] :

(5)¶\[\min_{\mathbf{u}_i, \mathbf{a}_j} \sum_{\textrm{Present}(i,j)} (x_{ij} - \mathbf{u}_i^T \cdot \mathbf{a}_j)^2 + \lambda(\sum_i n_i \left\|\mathbf{u}_i\right\|^2 + \sum_jn_j \left\|\mathbf{a}_j\right\|^2)\]

où \(n_i\) est le nombre total de notes données par l’utilisateur \(i\) et \(n_j\) est le nombre total de notes reçues par l’article \(j\).

Ce problème de minimisation est résolu par l’algorithme itératif Alternating Least Squares (ALS). A chaque itération de l’algorithme on alterne deux phases :

avec \(\mathbf{u}_i\) fixés, \(1 \leq i \leq n_u\), on obtient les \(\mathbf{a}_j\), \(1 \leq j \leq n_a\), comme solution d’un système linéaire (de façon similaire à la solution des moindres carrés pour une régression linéaire) ;

avec \(\mathbf{a}_j\) fixés, \(1 \leq j \leq n_a\), on obtient les \(\mathbf{u}_i\), \(1 \leq i \leq n_u\), comme solution d’un système linéaire (de façon similaire à la solution des moindres carrés pour une régression linéaire).

La fonction à minimiser (5) n’est pas convexe dans ses arguments \(\mathbf{u}_i\) et \(\mathbf{a}_j\) mais pour \(\mathbf{u}_i\) fixés elle est convexe en \(\mathbf{a}_j\) et pour \(\mathbf{a}_j\) fixés convexe en \(\mathbf{u}_i\). ALS converge donc vers un minimum qui n’est pas nécessairement global, il est donc utile de faire plusieurs essais avec des initialisations différentes.

Il est très utile de suivre cet exemple de recommandation de films avec MLlib.

[BGL15]

Beel, J., B. Gipp, S. Langer, C. Breitinger. Research-paper recommender systems: a literature survey. International Journal on Digital Libraries, pages 1–34, 2015.

[BOH13]

Bobadilla, J., F. Ortega, A. Hernando, A. Gutiérez. Recommender systems survey. Knowledge-Based Systems, 46:109–132, July 2013.

[KBV09] (1,2)

Koren, Y., R. Bell, C. Volinsky. Matrix factorization techniques for recommender systems. Computer, 42(8):30–37, Aug. 2009.

[Pat07]

Paterek, A. Improving regularized singular value decomposition for collaborative filtering. Dans Proc. KDD Cup Workshop at SIGKDD’07, 13th ACM Int. Conf. on Knowledge Discovery and Data Mining, pages 39–42, 2007.

[PCB08]

Poullot, S., Crucianu, M., Buisson, O. Scalable Mining of Large Video Databases Using Copy Detection, Dans Proceedings of ACM Multimedia 2008, Vancouver, Canada, 27-30 octobre 2008, pp. 61-70.

[ZYS17]

Zhang, S., L. Yao, and A. Sun. Deep learning based recommender system: A survey and new perspectives. CoRR, abs/1707.07435, 2017.

[ZWS08]

Zhou, Y., D. Wilkinson, R. Schreiber, R. Pan. Large-scale parallel collaborative filtering for the netflix prize. Dans Proceedings of the 4th International Conference on Algorithmic Aspects in Information and Management, AAIM’08, pages 337–348, Berlin, Heidelberg, 2008. Springer-Verlag.

Cours - Recherche par similarité. Application aux systèmes de recommandation¶

Recherche et jointure par similarité¶

LSH pour la distance cosinus¶

Jointure par similarité avec LSH¶

Malédiction de la dimension¶