La Transition bibliographique : au-delà de la mise en ligne des données
Il me semble que je deviens un peu trop assertif dans le contenu de ce billet. Mais ce n’est pas parce que je me prends parfois au sérieux que vous devez me prendre au sérieux vous aussi.
Dans un récent billet, je revenais sur l’affirmation selon laquelle la Transition bibliographique (TB) « sert à mettre les catalogues dans le web de données.
Or si la TB permet de faire cela, elle ne s’y limite pas, et heureusement : car si on ne cherche qu’à mettre ses données sur le web, il y a d’autres méthodes, et moins coûteuses.
Et donc, pourquoi avoir engagé cette Transition bibliographique, et pourquoi la continuer ?
Pourquoi avoir engagé la Transition bibliographique ?
En substance, parce que les catalogues étaient (et sont encore, tant que tout ça n’est pas terminé) sont complètement inadaptés à l’environnement du web numérique.
Un catalogue de bibliothèque, qu’est-ce que c’est ? Comme pour un catalogue de commerçant : la liste de tout ce qu’une bibliothèque possède. Il sert avant tout à une bibliothèque à gérer son stock. C’est une mission importante, indispensable même ! Il faut que les personnes qui travaillent dans une bibliothèque puissent savoir ce qu’elles possèdent déjà, ce qu’elles n’ont pas, etc.
Exemple d’une information dont les lecteurs n’ont généralement que faire, mais qui est cruciale pour les bibliothécaire : la hauteur de chaque livre. Elle est indispensable pour savoir où il va pouvoir le ranger, s’il lui faut bientôt des étagères supplémentaires de la bonne taille ou non.
Le niveau de granularité du catalogue est donc (pour les livres) le produit éditorial. Or je ne connais qu’une situation (j’exagère à peine) où un lecteur va vouloir une édition précise d’un texte : quand c’est demandé par le prof de français ou par la maîtresse, qui veut pouvoir dire « Pour lundi prochain, lisez les pages 22 à 73 » (en s’épargnant autant que possible les « Madame, moi je n’ai pas la même édition »).
Se débarrasser (ou presque) de l’ISBD
Les formats Marc sont conçus pour produire les éléments d’information de l’ISBD en en facilitant la saisie (et fournir au passage quelques mécanismes complémentaires, comme l’utilisation de référentiels, voire de liens entre notices). Ils sont hérités d’une conception de ce qu’est une référence bibliographique embarquant l’intégralité des éléments d’information.
La norme ISBD mélange des consignes sur le fond (liste de éléments à fournir et où les trouver) et la forme (ordre des informations, signes de ponctuation pour les séparer les unes des autres).
Or ce mélange du fond et de la forme est complètement contraire au web, et à l’informatique en général (cf. cet article Wikipedia, par exemple). L’usage, bien répandu depuis plusieurs années à présent, des logiciels de gestion de référence bibliographique comme Zotero en atteste : ce qui est important, c’est de stocker l’information de manière structurer, et de disposer d’outils, de mécanismes, pour la restituer dans divers formats d’affichage (les différents styles des revues scientifiques) ou d’échange (les formats d’export RIS, BibTex, etc.).
Pour l’instant, aucun autre modèle alternatif à l’ISBD n’était clairement proposé, pensé nativement pour un environnement numérique de gestion de l’information, qui déconstruise un bloc (le pavé ISBD) où un programme informatique à un mal fou à identifier les différents éléments d’information.
L’ISBD, c’est la perpétuation du modèle de fiche : la notice est un bloc, dont certaines informations sont extraites par le système pour servir à l’indexation, aux filtres ou au tri — mais chaque élément d’information n’existe pas en tant que tel, il n’est pas accessible de manière isolée, si on n’a pas décidé de l’extraire de la notice pour permettre de le manipuler à part. Si un chercheur veut s’intéresser à l’évolution du nombre moyen de pages dans la littérature pour adolescents (pour mesurer l’impact du phénomène Harry Potter dans le monde de l’édition, par exemple), l’information « Nombre de pages » n’est pas stockée dans une table, au sein d’une base de données relationnelles, associant le numéro de notice à son nombre de pages. Elle est juste à l’intérieur de la notice, dans la table « record », et pour y accéder il faut l’en extraire.
N’est-ce pas dommage d’avoir saisi cette information pour pouvoir n’en disposer qu’à l’affichage de la notice détaillée ? N’y reconnaît-on pas pourtant un élément granulaire d’information, qu’on a rendu inaccessible pour cause de modèle inadapté.
J’insiste sur le fait que ce besoin est né de l’informatique, et non du web. Il est compréhensible que les bibliothèques aient perpétué, lors de leurs premières informatisations, un schéma de pensée concernant leur catalogue qui reprenait les traditions antérieurs. Mais au bout d’un moment, il faut tout de même changer de paradigme (oui, je sais, l’expression est un peu trop à la mode, mais je trouve que ça s’applique bien. Et encore, je n’ai pas parlé de changer de logiciel !).
Le modèle FRBR (dont IFLA LRM est l’héritier) est né dans les années 1990, dans un monde où les manières de penser l’information étaient naturellement numériques (mais avant l’explosion des usages de l’internet), avec une question : si on devait partir de rien, dès lors qu’on dispose d’un ordinateur, comment repenser l’objet livre afin de pouvoir le décrire de manière satisfaisante ?
Bref, il fallait bien quand même arriver à passer à un autre modèle que l’ISBD. Cela fait 60 ans qu’on a des catalogues informatiques, et 25 ans que FRBR existe : ne faut-il pas se décider, à un moment, à basculer ?
Modèle conceptuel et non modèle technique
Sur ce point, je suis encore moins sûr de ce que je pense et de là où ça pourrait mener.
Il me semble que le modèle FRBR, et après lui IFLA LRM, est avant tout un modèle conceptuel de représentation de certains objets du monde (la création intellectuelle et ses productions concrètes sous forme d’objets). Sa première vocation n’est donc pas de servir de socle structurant à une base de données relationnelles, mais de nous donner à voir la nature profonde de ces créations intellectuelles (et leurs avatars physiques) : tout n’est pas au même niveau. Plus exactement, il y en a quatre, de niveaux — là où d’autres en auraient dégagé peut-être cinq, ou trois (coucou Bibframe).
Cela signifie qu’il est possible d’adhérer à cette vision du monde sans être en mesure (ou même sans souhaiter) pour autant l’implémenter dans la technicité des outils de catalogage. Cette adhésion pourrait avoir comme conséquence, par exemple :
- d’être sensible à l’importance de certains éléments d’information, en ce qu’ils caractérisent tel ou tel niveau de l’arbre OEMI : l’illustrateur devient co-auteur de l’oeuvre (et non valorisateur du texte) ; le traducteur identifie la traduction ; le titre original mérite d’être mentionné tel quel, même s’il est identique au titre traduit (Moby Dick)
- une prise en compte lorsqu’on refond une interface de consultation : créer des facettes « Auteur » distinctes selon que les fonctions ressortissent de tel ou tel niveau d’entité implicite dans la notice bibliographique préservée
Je ne prétends pas qu’il faut faire une telle chose: je dis juste que voir dans chaque notice de son catalogue un arbre œuvre-expression-manifestation caché peut induire certains aménagements.
Les évolutions du web 2000-2020
Vous ne l’avez peut-être pas relevé, mais ci-dessus je posais aussi la question « pourquoi la continuer ? » (la Transition bibliographique) : car oui, il est bon de s’assurer qu’on est toujours sur une trajectoire souhaitable, se réassurer que les raisons initiales étaient bonnes, ou que d’autres raisons encore meilleures sont venues s’y justifier, et se rassurer qu’on n’a pas fait tout ça pour rien !
La Transition bibliographique, c’est un pack de décisions pour former un tout aussi cohérent que possible :
- l’implémentation du modèle FRBR, puis IFLA LRM
- l’adoption, avec ce modèle, d’une structure de l’information en mode Entité-relation, caractéristique des bases de données relationnelles (alors qu’un stock de notices, un catalogue, fonctionne plutôt comme une base orientée documents — cf. ci-dessus)
- la diffusion de nos métadonnées dans le web de données, en utilisant pour cela le standard international que constitue RDF
L’utilisation de RDF, une grammaire élaborée hors du monde des bibliothèques (au rebours d’un outil comme Z39.50, par exemple, que personne n’aurait l’idée de nous envier) était là aussi pour se rassurer sur le fait que nous allions nous intégrer dans un monde global et en marche
Sans vouloir retracer brillamment et synthétiquement 10 années d’internet, je voudrais évoquer plusieurs choses qui n’étaient pas là (ou pas si bien identifiables) au lancement de la Transition bibliographique.
Sur l’adéquation entre FRBR / LRM et le monde du web
En 2011 est sorti schema.org, co-publié par Microsoft, Yahoo et Google avec une vocation universaliste : proposer des schémas de métadonnées pour tous types de produits et ressources qu’on trouve sur le web.
Leur objectif était certainement avant tout commercial (pouvoir décrire, dans la partie Shopping d’un moteur de recherche, un produit qui pourrait s’acheter ; pouvoir alimenter le Knowledge graph — pour Google — ou autres outils d’affichages plus pertinents de manière général), mais l’argent est un moteur puissant ! Or pour les livres, la modélisation de schema.org ne ressemble pas vraiment à l’arbre Oeuvre-Expression-Manifestation.
Vers qui le monde (culturel et commercial) du livre va-t-il vouloir se tourner ? Les interfaces vont-elles plutôt évoluer pour s’adapter au modèle de Google ou à celui des bibliothèques ?
Sur la transformation du web en web de données
Telle était la vision de Tim Berners-Lee : que les concepteurs de site web, qui diffusaient sous forme de pages HTML le contenu déstructuré de leurs bases de données sous-jacentes, exposent aussi ces mêmes données selon la formalisation RDF
<sujet URI> <prédicat URI> <objet URI ou autre valeur>
Cette technologie a eu de beaux succès, de belles réalisations, mais a tout de même souffert dans les faits de deux limites :
- à mettre en place par le producteur, et à utiliser par l’utilisateur, c’est compliqué !
La moindre information prend 8 fois plus de temps à écrire ou à manipuler
Pour utiliser une propriété, il faut d’abord l’avoir déclarée dans une ontologie (alors que pour documenter un lot de balises XML, un petit PDF ou une page HTML de documentation suffit) - Les performances quand on requête une base de triplets se révèlent souvent problématiques lorsqu’on est sur de la grosse masse.
Le RDF a connu sa petite courbe du hype pour être adoptée par les communautés pour lesquelles il est pertinent, en étant abandonné par les autres. Le « web de données » (ou « web sémantique », ou « web 3.0 » n’est plus vraiment au centre de l’intérêt :
Evolution des termes web 3.0 – web de données – web sémantique

Et encore si la notion de « web 3.0 » est encore en 2022 utilisé (cf. par exemple cet article, ou celui-ci) — ce sont toutes sortes de technologies qui peuvent se cacher derrière :
- blockchain
- intelligence artificielle
- interopérabilité
- métavers
- internet des objets
- et d’autres petites choses
En gros, tout le monde a bien compris que le web 2.0 était déjà réalisé. Mais le 3.0 est encore tout juste devant nous.
Les formats de diffusion de jeux de données
Pendant que les bibliothèques travaillent à un modèle entité-relation et l’expression de ses données en RDF, le format d’échange qu’elles aiment bien manipuler (XML) n’est plus celui utilisé massivement par les fournisseurs de jeux de données et de web services : le JSON, ou le CSV.
A l’issue de ce processus, ne risque-t-on pas de produire des données dans un modèle que personne ne connaît, selon une technologie que personne n’utilise ?
D’où ma question : on a eu des raisons pour commencer, a-t-on raison de continuer ?
Question de modèle ou de technologie ?
Sur la question des technologies en adéquation ou non avec celles prévues pour les données des bibliothèques : il faut en réalité reconnaître que c’est en partie un faux problème.
Le modèle en cours d’adoption se veut absolument granulaire. A partir de là, tout est possible.
- si vous avez une zone d’information comportant « Prénom Nom », il est parfois compliqué de distinguer le nom du prénom : quand le prénom ou le nom sont doubles, quand il n’y a pas de « prénom » (Stendhal) ou pas de « nom » (Marie de France)
- en revanche si vous avez deux zones (voire même un typage des zones pour préciser les cas non pertinents, comme l’absence de prénom ou de nom), vous pouvez générer sans difficulté un élément « Prénom Nom »
Ce qui veut dire qu’une structuration interne complexe permettra d’exposer des données dans des formats extrêmement simple (en CSV, par exemple) : cela peut avoir un côté frustrant, sauf pour l’utilisateur. Surtout, cela permet de construire une stratégie de services qu’on peut mieux penser en fonction des usages et des attendus pour structurer davantage les formats de sortie (format au sens large : une liste de résultats dans un catalogue en ligne est un format d’affichage).
Ce n’est pas anodin : il faut prévoir une source d’informations (quels utilisateurs attendent quoi ? quelle population représentent-ils ? etc.), du temps d’instruction (apporter une réponse datavisuelle à un besoin beaucoup plus confusément exprimé) et des compétences (en ergonomie, en manipulation des données).
Dans le cas contraire, si on ne dispose ni de ces informations, ni du temps, ni des compétences, on restera tributaire du modèle brut. Or, comme je l’ai indiqué plus haut, il ne correspond pas aux usages quotidiens du web, et on peut donc partir sur l’hypothèse qu’en l’état (œuvre/expression/manifestation), il ne sera pas utilisable par les lecteurs.
Quels nouveaux services ?
On évoque beaucoup les nouveaux services pour justifier l’intérêt de la Transition bibliographique. Il y en aura certainement. Les autres communautés pourront s’emparer de nos données pour imaginer de nouveaux usages. D’une certaine manière, on anticipe ces réappropriations en constatant ponctuellement des demandes auxquelles on ne sait pas encore correctement répondre (les œuvres les plus empruntées dans les bibliothèques ? les œuvres anglaises les plus rééditées en France du XVIIIe au XXe siècle ? etc.). Mais il n’est pas nécessaire d’aller trop loin dans l’imagination pour postuler que ces usages auront lieu, dès lors que nos données seront structurées de manière à pouvoir les satisfaire et qu’on disposera d’une organisation, d’une disponibilité (d’une réactivité ?), pour accompagner ces usages.
Mais en réalité il faut aussi se convaincre que les besoins actuels seront mieux rendus. Logiquement, le passage du catalogue à la version numérique a dû nous frustrer nous-mêmes dans les besoins quotidiens, normaux pour accéder et donner accès aux collections :
- Epargner à l’internaute les 3 pages de résultats quand il cherche Harry Potter et peine à expliquer qu’il voudrait en fait un des 8 films, en version DVD, et disponible (non déjà emprunté) dans la bibliothèque où il se trouve
- Si un service de réservation multisite existe, lui permettre une réservation portant sur tous les exemplaires de plusieurs notices rattachées à la même expression, parce que c’est une édition française de l’Odyssée qu’il doit lire.
Je sais qu’il y aura probablement plusieurs traductions possibles : mais si l’internaute ne peut pas déclarer indifférent le critère « traducteur », alors on aura sans doute échoué dans l’offre de services.
On revient là sur un point que je mentionnais à propos de Sparnatural : il faut penser une interface en contexte d’utilisation, par rapport aux usages des internautes, pas par rapport au modèle sous-jacent, qu’ils n’ont pas connaître.
Le modèle extrêmement souple qu’on est en train d’adopter permettra de tout faire — y compris des choix, qu’il faudra absolument faire (et requestionner régulièrement). - Concevoir une politique documentaire en fonction de l’offre et des usages (stats de prêt) au niveau des oeuvres et des expressions, mais pas des manifestations (la notice bibliographique et l’exemplaire étant à ce jour les deux seuls niveaux de manipulation disponibles)
Le modèle LRM est plus complexe que le « modèle bibliographique-autorité ». Il ne faut pas pour autant rendre les interfaces plus complexes : elles doivent manipuler des raccourcis, des fonctionnalités simples, correspondant à leurs attentes (et correspondants aux usages normaux d’une collection de bibliothèque) rendus possibles précisément par la Transition bibliographique.
Les « nouveaux services » viendront plus tard.Ils viendront à la fois de nouvelles populations d’utilisateurs, et de nos lecteurs traditionnels à qui nous pourrons enfin répondre positivement à des attendre frustrées depuis si longtemps, attentes générées par leurs pratiques ailleurs sur le web (en terme de recommandation notamment, et d’articulation avec les autres espaces de production de connaissance et d’information). Mais il faut arriver à se persuader (ou risquer de conserver un sentiment de bricolage, il me semble) que ce nouveau modèle vient en réponse à la frustration actuelle causée par la tension entre possibilités informatique et catalogue pensé sur un ancien modèle.
Et donc, cette Transition bibliographique ?
Ce serait intéressant aussi d’évoquer la question des coûts : ce que coûte la Transition bibliographique, ce qu’on en attend en bénéfice retour, etc. Mais par rapport à ce que j’évoquais plus haut à propos de l’ISBD, il me manque une évaluation (je ne sais pas comment on ferait ça) de ce que nous coûte l’implémentation actuelle d’un modèle non adapté au monde numérique : des technologies très spécifiques ; une politique documentaire sans visibilité propre au niveau des œuvres et des expressions, une inadéquation entre les centres d’intérêt des lecteurs et ce qu’on lui offre ; toutes les demandes frustrées des chercheurs qui souhaiteraient utiliser les catalogues (et les collections à travers eux) comme révélateur d’un monde particulier.
Il y a certainement des scénarios alternatifs : la preuve, d’autres pays adoptent d’autres « transitions ». Le monde anglo-saxon, dont le point de départ est catalographiquement différent (beaucoup moins de liens entre notices, notamment) a visé une évolution moins forte en laissant de côté les données existantes pour se consacrer sur la production actuelle et à venir ; ou en implémentant RDA sans implémenter IFLA LRM (cf. mes remarques sur LRM comme modèle conceptuel et non technique).
A présent qu’on est dans l’intérieur de cette transition (j’entends beaucoup moins de personnes demander : « alors, c’est pour quand ? »), il s’agit « simplement » d’en venir à bout, pour enfin n’avoir plus besoin d’en parler ! Comme d’avoir traîné un peu trop longtemps un vieux modèle de voiture, et se dire, en sortant de chez le concessionnaire avec une voiture neuve, que la voiture ne sera désormais plus un sujet 🙂
Bonjour Monsieur,
Je découvre votre site en cherchant des infos sur Greasemonkey car je suis moi-même intéressé par les scripts, dans le contexte des bibliothèques (WinIBW particulièrement, mais je cherchais des infos sur Greasemonkey pour piloter mon SIGB).
Alors je me disais que peut-être vous auriez des informations que je n’ai pas, ou peut-être avoir plus de ressources que moi pour trouver certaines informations.
Si jamais ça vous intéresse, mon site est dans ma signature !