Aller au contenu principal

IA et opac : mettre en place un moteur de recommandation dans un opac – 4/4 : En quoi c’est du machine learning et de l’intelligence artificielle ?

02/12/2019

Enfin, commençons plutôt par expliquer pourquoi cette expérimentation n’en est pas vraiment.

Remarque importante sur l’entraînement et la validation d’un modèle de Machine Learning (pour les puristes)

Pour respecter les règles de l’art, la précision des prédictions issues d’un modèle basé sur des algorithmes doit être évaluée (et le modèle si besoin re-paramétré) avant de passer en production. Pour cela, le workflow consiste à diviser dès le départ le jeu de données en deux sets distincts : un set d’entraînement (en général 80% des données) sur lequel on choisit, paramètre et entraîne l’algorithme, et un set de test (les 20% restants) qui sert à l’évaluation du modèle, notamment au repérage d’un éventuel sur-entraînement, c’est-à dire la bonne capacité du modèle à prévoir les données d’entraînement mais sa moins bonne performance sur les données de test. Concernant un modèle de recommandations, plusieurs techniques et métriques d’évaluation existent qui analysent par exemple son efficacité (sa capacité à recommander des items qui sont ensuite « consommés » – ici empruntés – par les utilisateurs) ou son taux de couverture (sa capacité à couvrir toutes les références d’un catalogue). Ici nous avons d’emblée utilisé l’intégralité des données, tout simplement car il ne s’agissait pas d’utiliser le modèle tel quel en production – on est même très loin du compte – mais seulement d’établir une sorte de POC – et de s’amuser un peu – ;).

D’autre part, pour évaluer le modèle dans le contexte choisi pour cette expérimentation (celui de Cold Start où l’utilisateur n’est pas loggé), on ne peut pas s’appuyer sur les données de prêt pour évaluer dans quelle mesure la consultation d’une recommandation aurait été suivie d’un emprunt. Une solution dans le cadre d’une mise en production serait par contre l’étude des logs du catalogue pour analyser les vues sur les notices recommandées à partir des vues d’un item, ce qui est une autre paire de manches !

Enfin, le terme important dans Machine Learning ou apprentissage automatique est le mot apprentissage : l’algorithme est auto-apprenant, les données produites en temps réel ré-alimentent automatiquement la masse de données disponibles ainsi que les calculs de similarité, et la qualité des recommandations s’améliorent en flux continu. Ceci suppose donc une architecture dédiée et une puissance de calcul qui ne s’improvise pas pour un billet de blog.

Par contre, sur la démarche on s’en approche

En effet on aurait pu envisager une autre démarche faite de spécifications extrêmement raffinées, de règles écrites par des experts en métadonnées ou en médiation pour définir le mode de pondération qui détermine la proximité entre deux ressources.

….

Mais justement l’approche IA telle qu’abordée dans cette expérimentation est tout autre : il ne s’agit plus de définir et appliquer des règles métiers aussi élaborées soient-elles, mais de partir de la donnée (ou de la métadonnée, ou du plein texte, ou de l’image…) et de mettre en place des processus d’apprentissage de ces données, sans à priori métiers autres que le choix des bonnes variables, afin d’en extraire de la connaissance opérationnelle sur la manière dont les données s’articulent entre elles. Autrement dit d’appliquer une approche déterministe empirique dite “data-driven”, basée sur le postulat fort que les données contiennent intrinsèquement des motifs, des schémas  qui leur confèrent du sens en elles-mêmes. Ici, le bibliothécaire ne détermine pas à priori de critères de ressemblance entre notices mais laisse la main à l’algorithme qui calcule les proximités, quitte à la reprendre pour l’évaluation des résultats.

Il faut tout de même signaler qu’en dehors du champ d’étude très spécifique et plus récent du Deep Learning et des réseaux neuronaux, les algorithmes utilisés en Machine Learning ne sont pas nouveaux, ils reposent sur des méthodes statistiques de régression et de classification éprouvées et conçues pour la plupart au XIXème siècle. Les démarches scientifiques quantitatives traditionnelles, toutes les ‘Data analytics” et autres Business Intelligence (BI) reposent déjà sur ces méthodes statistiques pour transformer la donnée en information.

La nouveauté réside dans l’usage qui en est fait, boosté par la disponibilité de nouvelles masses de données structurées ou pas et croissant de manière exponentielle (y compris pour nous bibliothèques), elle-même rendue possible par le développement des architectures informatiques de stockage et de traitement : pour des humains dont les capacités cognitives sont dépassées par de tels volumes de données, il s’agit de déplacer les processus d’apprentissage et d’automatiser leur ajustement incrémental vers des processeurs et des ordinateurs, afin de :

  1. faire réaliser par une machine des tâches cognitives déjà ou possiblement effectuées par l’humain (indexation, catalogage etc….) mais appliquées à de gros volumes de données ;
  2. en développant des modélisations et en mettant à jour des corrélations dans un but moins explicatif que prédictif (moteur de recommandation qui n’est autre qu’une prédiction de document pouvant intéresser un utilisateur, FRBRisation, probabilité pour un document d’être un jour emprunté ou pas, …)

Ainsi, dans notre environnement de bibliothèque, les algorithmes d’IA nous interrogent dans au moins deux dimensions de nos métiers, sachant que nous bénéficions d’un avantage considérable pour entraîner des algorithmes : la disponibilité de collections de métadonnées riches et structurées issues de notre héritage de catalogage.

notre rôle de producteur de métadonnées par la constitution de collections : quid de l’indexation manuelle quand un algorithme peut être entraîné sur toutes les métadonnées et plus (4ème de couverture) d’une collection pour ensuite pouvoir prédire le bon descripteur à choisir dans un référentiel pour un nouveau document ? Ou encore, comment ajuster sa politique documentaire quand un algorithme pourra prévoir la probabilité pour un document d’être emprunté ou pas en fonction de telle ou telle autre cote que le bibliothécaire décide de lui affecter ?

notre rôle de médiateur de métadonnées : quel futur pour les catalogues de bibliothèques, au-delà des possibilités de moteur de recherche profonde ? L’objectif d’efficacité passera-t-il par la conception d’interfaces personnalisées à chaque utilisateur en fonction de ses caractéristiques, avec des recommandations fortement contextualisées basées sur l’exploitation de ses données d’usage, quitte à formater son environnement de recherche à la mode Google ?

 

Références

Pour une première approche pédagogique et synthétique des différents algorithmes de Machine Learning (et aussi Deep Learning)

Lemberger, Batty, Morel, Raffaëlli, Géron, and Géron Aurélien. Big Data Et Machine Learning Les Concepts Et Les Outils De La Data Science. 2e édition. ed. Malakoff: Dunod, 2016. Print. InfoPro Management Des Systèmes D’information.

Là c’est beaucoup plus chaud

Tufféry, Saporta, and Saporta Gilbert. Data Mining Et Statistique Décisionnelle La Science Des Données. 5ème édition Actualisée Et Augmentée. ed. Paris: Éditions Technip, 2017. Print.

Pour un état de l’art sur les calculs de similarités appliqués aux données textuelles

Elsa Negre. Comparaison de textes: quelques approches…. 2013. ffhal-00874280

Pour manipuler les données et implémenter les algorithmes en Python

VanderPlas, Jake. Python Data Science Handbook Essential Tools for Working with Data. Sebastopol, Calif: O’Reilly, 2017. Print.

Et enfin pour la modélisation de système de recommandations, toute une série de tutos et billets de blog sur le net, notamment sur cette plateforme de blogs

No comments yet

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :