Aller au contenu principal

Que veut dire « mettre les données des catalogues sur le web » — ou A quoi sert la Transition bibliographique ?

11/07/2022

Si on leur pose la question (« A quoi sert la Transition bibliographique ? »), je crois que de nombreux collègues répondront :

  • ça sert à rendre visible les catalogues
  • voire : ça sert à les mettre sur le web de données

Cette réponse est à la fois correcte, insuffisante et frustrante.

Et j’ai l’impression qu’il y a un grand malentendu sur la raison pour laquelle on a engagé cet énorme chantier de la Transition bibliographique, et ce que ses porteurs voyaient derrière cette supposée « visibilité des catalogues ».

(Je reprécise par ailleurs que je rends compte de ma seule compréhension des choses, et que chaque article publié ne me semble que le brouillon de ce qu’il devrait être…)

Mon idée ici n’est pas de tant de questionner le modèle IFLA LRM (son contour, ses possibilités, etc.), mais d’expliquer ce qu’on peut entendre (ou pas) par « mettre les catalogues dans le web de données ».

Publier ses données sur le web, c’est facile

Il y a 15 ou 20 ans, on a constaté que les moteurs de recherche savaient naviguer d’un lien à l’autre pour découvrir des contenus, mais ne savaient pas interroger une base de données (qui existe sous la forme d’un formulaire de recherche) trouvée sur un site web, pour en récupérer les contenus (sous forme de pages de listes de résultats).

Le contenu de nos catalogues étaient donc ignorés de Google !

La bonne nouvelle, c’est que le problème ne concernait pas que les bibliothèques et leurs catalogues, mais toutes les bases de données accessibles uniquement par formulaire de recherche : donc des technologies se sont mises en place pour résoudre le problème. Une des plus simples est la sitemap : si pour chaque notice vous pouvez donner un lien pérenne (calculé généralement à partir du numéro de notice : http://catalogue.bibliotheque.fr/numero_de_notice — en plus ou moins compliqué), alors vous pouvez extraire la liste des numéros de notices, les convertir en liste d’URL, et publier cette liste dans un fichier à un endroit que les moteurs de recherche sauront trouver.

Donc pas besoin de « transition bibliographique » pour donner à Google la liste de vos documents.

Est-ce pour autant satisfaisant ? Si un internaute cherche sur Google Premier sang (le dernier roman d’Amélie Nothomb, pour le moment), est-ce un service à lui rendre que de peupler les 10 premières pages de résultats de notices de catalogues alimentés par des bibliothèques où il n’ira jamais ?

Publier ses données sur le web de données, c’est faisable

De même qu’on peut rendre un catalogue de bibliothèque indexable à moindres frais (mais pour quels services ?), on peut exposer ses métadonnées selon les technologies du web de données (aka en RDF) sans s’embarrasser d’une quelconque Transition bibliographique.

La preuve ? Le Sudoc le fait déjà :

  • Prenez une notice au hasard (par exemple Premier sang)
  • Récupérez son permalien : https://www.sudoc.fr/257041745
  • Ajouter .rdf à la fin : https://www.sudoc.fr/257041745.rdf
  • vous obtenez l’équivalent de la notice bibliographique, exprimé en RDF : donc pour une ressource décrite comme un Document (au sens de l’ontologie bibo) avec la plupart de ses métadonnées/attributs/propriétés : titre, auteur(s), date, éditeur, etc.
    (toutes les métadonnées de la notice Unimarc n’y sont pas, mais on peut considérer que pour le web, c’est suffisant)

Cela demande un travail de conversion, donc de modélisation (comment exprimer chaque zone ou sous-zone selon ce procédé par triplets ?) mais la « Transition bibliographique » (telle que définie à ce stade) n’a rien de nécessaire.

Mais on sait que la Transition bibliographique, c’est plus que « mettre ses données sur le web » (même de données) : c’est l’implémentation du modèle IFLA LRM et d’un nouveau code de catalogage, RDA-FR, par la même occasion. Mais sont-ce là des moyens ou des objectifs ?

Publier ses données comme catalogue sur le web

Quand on parle de mettre ses données sur le web, un des malentendus implicites risque d’être le rêve du service suivant : une bibliothèque, localisée dans une ville, « expose ses données » afin d’être indexée par Google.

Un internaute cherche le titre du livre

et se voit proposé l’emprunt dans la bibliothèque près de chez lui

D’abord, cela signifie que l’internaute est d’accord — et apprécie — d’être géolocalisé (d’accord, il l’est déjà de toute façon, mais dans notre profession on est traditionnellement sensible à la protection des données personnelles, et potentiellement contre les mécanismes de bulle de filtre).

Ensuite, il faut pour cela :

  • que Google géolocalise votre catalogue et considère qu’il est proche du lieu de l’internaute
  • qu’il indexe la notice « Premier sang » dans votre catalogue
  • qu’il soit capable d’associer la notice « Premier sang / Amélie Nothomb » avec l’oeuvre textuelle (au sens LRM) qui est présente par ailleurs dans son graphe (cf. la copie d’écran d’autocomplétion ci-dessus)

Or l’identification d’une oeuvre livre identifiable par son titre (Premier sang) et son auteur (Amélie Nothomb) est quelque chose que Google sait manifestement déjà faire, et sans avoir eu besoin d’implémenter LRM : cette oeuvre est dans son knowledge graph.

A la place, très vraisemblablement, il se contente de schema.org et du type de ressource « Book« .

Pour rejoindre ce graphe et y associer vos données, il faut donc qualifier typer vos notices de livres de https://schema.org/Book, en y associant nom, titre, et ISBN (selon cette même ontologie).

Et bien sûr, de se mettre d’accord avec Google pour qu’il les exploite comme vous pensez qu’il va vouloir le faire : car rien n’est moins sûr, votre service n’est pas pour lui une source de revenus.

Bref, pour obtenir que Google soit utilisable comme catalogue de votre bibliothèque, il serait peut-être plus efficace que le Ministère de la Culture ou la BnF travaillent avec Google pour voir ce qui est faisable, plutôt que d’implémenter la Transition bibliographique. D’ailleurs, OCLC et Google ont déjà travaillé dans ce sens, avec les données des catalogues existants.

Mais est-ce vraiment ce qu’on recherche, et tout ce qu’on recherche ? A-t-on besoin de la « Transition bibliographique » pour cela ? (oui, cette question m’obsède)

Ou alors on cherche à obtenir autre chose : en ce cas, autant l’expliciter.

Publier ses données sur le web, et oublier son catalogue

Quel est le service rendu à l’internaute que de lui mettre en avant, au sein des résultats d’un moteur de recherche, des informations issues des catalogues de bibliothèque (il faut aussi considérer que « le web » ne se limite pas aux moteurs de recherche, même si la perspective de se mettre sur le chemin des internautes fait bien partie des enjeux). On peut supposer qu’à la toute fin, il peut être utile pour lui d’accéder à un document précis, mais l’approche « données » d’un catalogue de bibliothèque consiste avant tout à considérer les métadonnées comme une information utile en soi.

En réalité, quand on prétend mettre ses données sur le web (de données), cela implique que le niveau d’information mis en ligne, c’est bien la donnée elle-même, l’élément d’information — que vous soyez le seul à le connaître (« Ma bibliothèque possède cet exemplaire ») ou des milliers (« Dostoïevski a écrit Les frères Karamazov« ).

Quel est le bénéfice attendu ? Qui en est bénéficiaire ?

Qu’est-ce que ça signifie de considérer le web comme une énorme base de données (au sens ou un SIGB est une petite base de données) dans laquelle on puisse (comme dans un SIGB) manipuler l’information ?

Cas d’usage : pour une œuvre donnée, les catalogues sont une source parmi d’autres permettant de connaître la liste des traducteurs qui l’ont successivement traduite. Mais pour ça il faut évidemment identifier que les 3974 notices éparpillées dans nos différents catalogues relèvent bien de la même œuvre, et que toutes ces notices contiennent des zones 700 dont le $4 a comme valeur 730. Il faut aussi dédoublonner la liste des traducteurs, dont les noms peuvent être parfois saisis de manière différente tout en désignant les mêmes personnes.

Cela implique que, dans tous les SIGB qui possèdent cette même oeuvre (à travers ses ISBN successifs), les notices soient identifiées comme relevant de la même oeuvre, que l’on puisse identifier les 2952 mentions de traducteurs comme 25 personnes distinctes, et que l’auteur est bien le même.

Dans les différents processus qu’englobe la Transition bibliographique, on est parfois tenté de se focaliser beaucoup sur la construction des arbres Oeuvre-Expression-Manifestation-Item, alors que l’adoption des mêmes identifiants (ARK, IdRef, ISNI, ID Wikidata, etc.) a au moins autant d’importance. Surtout la construction d’arbres OEMI impeccables serait inutile si on n’utilise pas dans le même temps des identifiants communs : car nos catalogues ne seraient alors pas plus qu’avant reliés entre eux et au web…

Le bénéfice pour les bibliothèques de lecture publique ?

Eh bien… au regard de leurs missions traditionnelles, le fait de mettre ses données dans le web n’a pas d’intérêt évident ni immédiat.

Le « bénéfice » essentiel est de contribuer à un projet commun de la profession, pour lequel la participation de tous est indispensable (sinon, ça semble très vain), de participer à l’émergence d’une nouvelle offre pour de nouveaux publics. Ces publics ne sont logiquement pas leurs publics traditionnels, leur communauté dont l’existence justifie le budget qu’ils obtiennent annuellement.

Mais cette participation à une entreprise collective n’est pas forcément un frein : de manière générale, l’apparition du web a brouillé les frontières dans les publics desservis par les professionnels des bibliothèques. Toutes les actions de médiation en ligne, à commencer par les services de questions-réponses en ligne, ne sont généralement pas limitées à la population desservie par les espaces de lecture.

Néanmoins le bénéfice immédiat, tel qu’on puisse en rendre compte à une tutelle, est complexe. C’est pourquoi un des enjeux de réussite de cette Transition est de parvenir à en minimiser autant que possible le coût pour la plus grande partie des établissements, afin de la rendre plus acceptable :

  • processus de migration des données le plus simple possible
  • accompagnement des éditeurs de SIGB pour qu’ils adaptent leurs offres
  • description du futur travail de catalogage (formation, documentation, circuit de traitement)

Ce qui correspond assez bien aux travaux du groupe Systèmes & données, finalement (ça tombe bien !)

Plot twist : en revanche, les données des autres bibliothèques…

Quel intérêt pour une bibliothèque de dépenser de l’énergie (et pas seulement) à mettre en ligne ses données ? A bénéficier des données des autres.

Comme on parle d’exposer les données sur le web, cela signifie penser et manipuler le catalogue à l’aune du web. Mais le lecteur de la bibliothèque est aussi un internaute qui a accès à autre chose : autres bibliothèques, autres ressources en ligne.
Vous pouvez très bien posséder le roman Le château de Hurle de Diana Wynne Jones, sans avoir pour autant Le Château ambulant de Miyasaki ? Logiquement (si tout est bien fait), dans le graphe des données, l’information liant ces deux oeuvres existera. Et il vous est possible de la récupérer, à condition d’être lié à ce graphe. Il peut être utile de l’afficher, quand bien même vous n’avez que l’une des deux (ce qui marche aussi dans l’autre sens : un lecteur vous ayant emprunté le dessin animé sera content d’en apprendre plus sur sa source, voire vous demander de l’acheter. Mais vous pouvez aussi considérer qu’il cherchera sur Wikipedia, ce qui n’est pas déshonorant : mails tout n’est pas et n’a pas vocation à être dans Wikipedia ; et Wikipedia a aussi besoin de sources).
Penser l’accès aux œuvres de l’esprit au-delà des collections de la bibliothèque est un vrai enjeu en terme de services, mais c’est bien aussi une promesse du web de données pour les bibliothèques : faciliter la porosité entre la bibliothèque et le monde extérieur.

Au-delà de la « diffusion des données sur le web » ?

« — A quoi sert la Transition bibliographique ? — A mettre son catalogue sur le web (de données). »

En réalité cette réponse est correcte. Elle est même plus rigoureuse et plus satisfaisante que « elle consiste à basculer son catalogue dans le modèle IFLA LRM tout en adoptant le nouveau code de catalogage RDA-FR ». Cette seconde réponse est plus technique, mais ne fournit que le moyen, et non la finalité.

Ce qu’on n’a pas du tout expliqué jusque là, c’est l’articulation entre les deux :

  • Si on veut simplement mettre ses données sur le web, pourquoi IFLA LRM ?
  • Si on veut convertir son catalogue en LRM, en quoi est-ce associé au web de données ?
    (je rappelle que IFLA LRM est héritier direct de FRBR, écrit dans les années 1990, alors que la première promesse du web sémantique date de 2001)

En outre, plus on instruit et réalise la Transition bibliographique, ou des expérimentations autour de ce modèle, et plus on a envie d’exploiter soi-même, pour le bénéfice de sa bibliothèque et de ses lecteurs immédiats (et pas juste en espérant que des internautes ou des moteurs de recherche le fassent) des données LRMisées.

Implémenter un catalogue utilisant le modèle IFLA LRM a beaucoup d’autres implications, dont certaines sont soupçonnées, et d’autres pas même encore imaginées. Cela brouille peut-être d’ailleurs la lisibilité de la Transition bibliographique :

  • au départ, l’enjeu majeur était de rendre visibles, exploitables les données des bibliothèques aux acteurs du web (cf. les premières pages du rapport du Comité stratégique bibliographique de novembre 2012) ;
  • pour cela, le modèle FRBR (devenu IFLA LRM) a été identifié comme la solution la plus adaptée (c’est un point sur lequel il faudra que je revienne, mais une autre fois) ;
  • mais à présent que la cible est LRM, on a envie de pouvoir faire plein d’autres choses impossibles précédemment.
    Ce qui nous fait une seconde cible apparue entre temps.

Un des autres axes du travail du groupe Systèmes & Données est justement d’identifier les initiatives, et de réfléchir aux potentialités, de l’implémentation du modèle IFLA LRM dans un catalogue en termes de services.

On trouvera encore dans les prochaines années, d’autres bénéfices à disposer d’une structuration des données beaucoup plus modulaire et granulaire que ne le sont les catalogues actuels. Mais ce n’était pas le sujet du présent billet (qui ne portait pas sur l’intérêt du modèle IFLA LRM, mais bien sur la question de l’exposition des données).

En outre, la mise en balance entre ces nouveaux services (donc beaucoup sont supposés existants, mais restent très indéterminés) et le coût pour les atteindre, n’a à ma connaissance pas vraiment été faite.

Ce qui nous laisse beaucoup de questions ouvertes pour l’avenir (et pour de nouveaux billets ?)

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :