Aller au contenu principal

Sparnatural et les modèles de données « usager »

23/06/2022

Vendredi 17 juin après-midi avait lieu aux Archives nationales une demi-journée de présentation du résultat de la collaboration entre la BnF, les AN et le Ministère de la Culture. Cette collaboration de plusieurs mois avait visé (et obtenu) des développements complémentaires d’un outil d’interrogation d’une base de triplets RDF, développée par la société Sparna, pour l’adapter aux besoins de la BnF et des AN.

L’outil en question s’appelle Sparnatural.

Les interfaces de requêtes développées pour la BnF et les AN sont aux adresses suivantes :

Principes de l’interface

Je ne vais pas rentrer dans une présentation de l’interface, simplement en évoquer les principes, et en venir ensuite directement à une leçon que je trouve particulièrement intéressante, surtout sur le long terme.

Les Sparql Endpoint sont des interfaces de recherche permettant d’interroger un graphe RDF à partir de n’importe quel point du graphe, condition, etc. Le langage Sparql permet de définir les critères recherchés, ainsi que les métadonnées récupérées dans la réponse — alors qu’un web service normal prévoit les critères de recherche et les modalités d’affichage des résultats : ainsi le SRU de la BnF (web service équivalent à son catalogue) propose une liste de critères et des options d’affichage, mais ne vous permet pas d’inventer autre chose que ce qui est déjà prévu.

Les Sparql Endpoint imposent donc un double écueil à leurs utilisateurs :

  • il faut connaître le langage de requête Sparql
  • il faut connaître le modèle utilisé dans le graphe interrogé, pour pouvoir construire une requête qui le parcoure.

En conséquence les Sparql Endpoint sont très peu utilisés, alors qu’ils pourraient répondre à de nombreux besoins d’extractions de données.

L’interface Sparnatural s’efforce d’évacuer ces deux écueils, en suggérant à chaque étape le noeud suivant, la condition, le type d’entité à récupérer, etc.

Certes, on va tomber nécessairement sur d’autres écueils : les fonctionnalités elles-mêmes, le principe même de construction (intellectuelle) d’une requête en vue d’une extraction, etc. Néanmoins, les deux gros soucis de technicité évoqués plus haut sont en grande partie évacués.

Un modèle de données « usager »

Une des caractéristiques de Sparnatural est qu’il est nécessaire (mais c’est une excellente chose) de configurer un modèle de données pour la recherche, distinct du modèle des données interrogées.

Certes, on peut décrire un modèle rigoureusement identique au modèle sous-jacent, reprendre l’ensemble des entités et des propriétés pour les rendre visibles dans le parcours des blocs manipulables.

Cela permet de regrouper des entités, ou des propriétés, des valeurs de référentiels. Par exemple regrouper des codes fonction sous une appellation « auteur » ou « créateur », si on considère que dans ce contexte d’interrogation la distinction entre collaborateur, contributeur, auteur du texte et adaptateur n’est pas utile ; ou gommer le niveau Expression en reportant sur la manifestation ou sur l’oeuvre certaines de ses propriétés ; etc.

Je trouve cette étape extrêmement intéressante, car elle permet de se détacher du modèle des données telles qu’elles sont stockées, pour les repenser dans leur contexte d’utilisation publique.

Fondamentalement, le modèle de données est pensé comme granulaire pour permettre de tout faire. Mais « tout faire » ne correspond à aucun besoin. Il faut assumer de faire des choix, en considérant qu’on connaît la plupart des besoins des usagers (ou en faisant des enquêtes pour s’informer).

On peut donc s’appuyer sur le modèle de données pour les penser en parcours, en services, en besoins, et s’efforcer d’y répondre au mieux.

Avec l’élaboration d’un modèle de données usager, distinct du modèle de données interne à data.bnf.fr, j’ai le sentiment qu’on sera en mesure de mûrir une réflexion sur ce qu’implique disposer d’une base de données RDF et la convertir en interface de recherche, par exemple dans le futur contexte d’un catalogue nativement LRM.

C’est une expérience qu’il sera utile de mobiliser dans les années à venir.

Qu’est-ce qu’une bonne interface catalogue LRM ?

(ceci est une petite digression, mais aussi un corollaire des paragraphes précédents)

Google dispose de son fameux knowledge graph, base de connaissance qu’il utilise dans certains contextes, et notamment pour proposer des résultats enrichis dans les pages de résultats Google (encart Wikipedia avec photo, liste des acteurs quand on cherche un titre de film, etc.)

A aucun moment Google ne donne à voir le graphe lui-même, celui-ci n’apparaît pas (avec des noeuds et des liens) au sein d’une page de résultats : il le mobilise de manière contextuelle, de manière à conserver un affichage tel que l’utilisateur sache interpréter ce qu’il a sous les yeux. Le graphe vient enrichir cet affichage, et ces enrichissement seraient impossibles sans ce graphe.

Il est probable que lorsqu’on disposera d’un catalogue constitué d’oeuvres, d’expression, de manifestations et d’agents (et de quelques autres trucs comme des concepts, des lieux et des périodes), la tentation soit de donner à voir toutes ces entités, la richesse merveilleuse des liens entre elles, dont nous serons si fiers.

Alors qu’il faut partir de ce que l’internaute est capable de manipuler (et donc de ce qui lui est familier), pour voir ce qu’on s’autorise à ajouter, et qu’il sera possible de faire grâce à cette nouvelle base d’entités et de relations et qui ne l’est pas pour le moment.

Imposer à l’usager la navigation dans les entités elles-mêmes, c’est le forcer à apprendre les concepts d’expressions, manifestations et oeuvres, qui ne lui sont familiers par aucune autre expérience.

A la place, penser un modèle de données Utilisateur, ne contenant que des concepts qu’il peut d’emblée comprendre et manipuler (à travers des pages de résultats suite à une recherche), me semble être une meilleure démarche.

Dans cette perspective, Sparnatural s’avère une étape, une expérience qui pourra se révéler extrêmement utile.

No comments yet

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :