Skip to content

Bibliostratus & le baromètre de la lecture publique : avoir des métadonnées homogènes

25/04/2018

Comme annoncé, je commence mes retours d’expérience sur l’utilisation de Bibliostratus, en commençant par le plus ancien (automne-hiver).

Mes utilisations constituent à chaque fois un détournement de l’intention première du logiciel, puisque en bonne logique je n’ai pas vraiment besoin d’aligner « mes » données (de la BnF) avec les données de la BnF — quoique… (mais ce sera pour une autre fois.)

Le baromètre des prêts de la lecture publique

Depuis 2014, le Ministère de la Culture missionne un prestataire (en l’occurrence TMO Régions) pour dresser un panel des « meilleurs prêts » (c’est-à-dire des ouvrages les plus empruntés) dans les bibliothèques de lecture publique.

Le Ministère et le prestataires ont identifié un fournisseur de SIGB qui couvrait une assez grande diversité d’établissement, et qui s’occupe de l’extraction des bases de données : liste des prêts de l’année et métadonnées bibliographiques associées.

Les premières années, les analyses ont porté  sur quelques dizaines de bibliothèques, clientes de C3RB et utilisatrices de son logiciel Orphée. Plus récemment, l’étude s’est élargie à 146 (2016) puis 167 bibliothèques (2017), en incluant aussi des extractions venant d’instances Koha et Infor.

L’analyse 2016 a été mis en ligne fin avril 2017, je suppose que 2017 ne tardera plus.

<mise à jour du 27/04/2018>C’est en ligne — et un article de LivreHebdo s’en fait l’écho</mise à jour>

Problème 1 : le modèle de données

Le problème pour ce genre d’analyse, c’est (pour l’instant !) le modèle de données utilisé dans les catalogues de bibliothèques : une notice par ISBN, c’est à dire une notice par produit éditorial. Vous n’avez pas la possibilité de regrouper facilement plusieurs ISBN qui sont des rééditions d’une même oeuvre (dans différentes langues ou à travers le temps, chez différents éditeurs, etc.).

Dans l’idéal, il aurait fallu pouvoir disposer d’un catalogue FRBR dans lequel retrouver tous les ISBN extraits des 167 catalogues.

Mais bon, puisqu’on en n’est pas là, il faut le faire spécifiquement pour l’occasion : pour identifier les oeuvres (et non les livres) les plus empruntées au niveau national, il faut donc réaliser des regroupements par auteur identique & titre identique.

Oui mais…

Problème 2 : qualité des données

Si vous prenez 167 catalogues de bibliothèques différents, vous aurez des métadonnées très différentes — toutes de qualité, très certainement, mais toutes ayant fait des choix ou choisi des sources diverses : Electre, Moccam, BnF, catalogage local, Worldcat, dérivation + reprise, dérivation sans reprise, …

Donc les titres ne se ressemblent pas toujours :

  • Thorgal. Les mondes de Thorgal. Kriss de Valnor, 1
  • Kriss de Valnor, tome 1
  • Kriss de Valnor, Je n’oublie rien (1). Les mondes de Thorgal
  • Les mondes de Thorgal. Je n’oublie rien.
  • etc

Sans compter les problèmes d’accents, de majuscules, d’abréviations, d’initiales, etc.

TMO Régions a donc contacté le Département des métadonnées de la BnF pour voir s’il était possible d’avoir des métadonnées homogènes pour chacun des ISBN associé à au moins un prêt dans une bibliothèque.

La BnF, des métadonnées homogènes ?

Disons que le catalogue BnF a une histoire complexe, qui compose un joli patchwork ressemblant parfois à un lent processus de balkanisation.

Mais :

  • les prêts 2017 dans les bibliothèques publiques portent pour l’essentiel sur des ouvrages de moins de 20 ans, donc les règles de catalogage, même si elles évoluent un peu chaque année, ont généré sur cette période un ensemble plutôt cohérent
  • la base d’autorités est unique : donc au moins les noms d’auteur sont orthographiés de la même manière sur l’ensemble des notices bibliographiques

Méthodologie et remarques

Je ne vais pas vous décrire ici l’ensemble de la procédure suivie. J’en dégagerai quelques traits intéressants, et pour le détail je vous renvoie à ce document (PDF – 6 p.).

  • Le corpus comptait 150.000 ISBN (120.000 pour des prêts antérieurs à 2017, et 30.000 d’ISBN nouvellement apparus dans les prêts 2017).
  • Dans 94% des cas, un ARK BnF, ou à défaut un PPN (Sudoc) a pu être trouvé.
    Dans 3% des cas, plusieurs identifiants ont été trouvés.
  • la demande ne consistait finalement pas à faire un alignement propre : il fallait fournir des métadonnées fiables et homogènes pour chaque notice, si bien qu’il n’était pas indispensable d’identifier l’édition exacte correspondant au prêt initial avec certitude. Si la recherche par ISBN ne fonctionnait, une recherche simple « Titre+Auteur » suffisait au besoin.
  • il a fallu définir une stratégie, une méthode, pour obtenir le taux d’alignement le plus haut avec le moins de faux positifs possible. L’outil traite les données qu’on lui donne. Mais il réagit différemment si on lui donne beaucoup ou peu d’informations.
    Donc il faut vraiment prendre conscience de ce qu’il fait concrètement, même s’il le fait automatiquement. Pour l’essentiel, c’est décrit dans ce document (Word – 10 p.)
    (il est toujours possible d’être plus précis, mais que c’est long !).
  • Une utilisation par cycles (ou on refait passer plusieurs fois les « restes » du passage précédent) s’est révélée très intéressante

Conclusion

Ce fut une expérience très intéressante, pour tester la montée en charge du logiciel sur plusieurs dizaines de milliers de notices.

Concernant le taux de recouvrement avec le catalogue BnF + Sudoc, je ne sais pas s’il vous semble élevé ou frustrant (surtout que le recours au Sudoc n’est pas du tout marginal !). Il y a plusieurs explications (que je détaillerai une autre fois si ça vous intéresse) concernant l’absence d’ISBN d’ouvrages relevant manifestement du Dépôt légal (édités en France ou diffusés en France). Sachez qu’on y travaille — mais que trouver une solution satisfaisante pour tous types de cas de figure n’est pas simple !

Néanmoins, 97% de taux d’alignement en cumulant BnF et Sudoc, sachant que les deux sont engagés dans la Transition bibliographique et travaillent de concert, c’est très rassurant :

Cela signifie que quand une bibliothèque voudra aligner son catalogue avec la BnF, elle trouvera forcément des taux inférieurs.
Mais les documents réellement empruntés dans ces bibliothèques sont bel et bien référencés soit dans le catalogue BnF soit dans le Sudoc. Donc la FRBRisation couvrira bien la partie la plus vivante des collections.

Or c’est sur ces collections que les lecteurs feront des recherches dans les catalogues. La FRBRisation par les agences couvrira donc les fonds qui les intéressent. Et après tout, c’est pour eux qu’on fait tout ça ! #nelesoublionspas

Publicités
No comments yet

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s

%d blogueurs aiment cette page :