Aller au contenu principal

Des milliers de ebooks (et de liens !) dans le catalogue de la BnF

09/07/2018

Posons le contexte

Depuis 2011, la BnF acquiert des ebooks. Parfois à l’unité, parfois en bouquets. L’ensemble, cumulé sur plusieurs années, avait fini par représenter 100.000 documents. Et pendant que les acquéreurs achetaient, les normalisateurs définissaient le format des notices cibles à obtenir.

A la fin, tout est prêt – il n’y a plus qu’à les mettre dans le catalogue. La BnF dispose évidemment d’un accès à l’API Worldcat et peut donc dériver en masse les notices.

Mais une simple dérivation signifiait qu’on allait générer 100.000 notices bibliographiques pas vraiment intégrées au catalogue :

  • Soit en ne générant aucun lien vers aucune notice d’autorité (les notices d’auteur, mais aussi l’indexation sujet)
    c’est à ça que ressemble les notices récupérées des éditeurs : description riche, mais aucun lien aux autorités
  • Soit en générant des notices d’auteur à la volée (récupération du nom + prénom et faire une fiche d’auteur minimaliste), alors qu’une partie d’entre eux existait déjà dans le catalogue

L’objectif d’un chantier qui a duré toute l’année 2017, a donc consisté à voir comment récupérer, pour chacun de ces ouvrages, le maximum d’informations :

  1. Sur ses auteurs
  2. Sur ses sujets

Et cela a donné le processus ci-dessous :

Le point d’entrée, c’est une liste d’ISBN fournie par chacune des plateformes (Wiley, ScienceDirect, Springerlink, etc.)

A la suite de ça : pour chaque ISBN

  • Récupération de la notice complète Worldcat en Marc21
  • Dans cette notice, on récupère la combinaison Titre + Auteur(s)
    • On cherche dans le catalogue BnF si cette combinaison Titre-Auteur renvoie un résultat
    • Si c’est le cas, on récupère les identifiants BnF
      • De chaque auteur
      • De l’indexation Rameau
      • De l’indexation Dewey
    • Dans tous les cas, on interroge le Sudoc (api isbn2ppn).
      Si la notice existe :

      • Si elle a des liens à des notices d’auteur IdRef, on les récupère
        • pour voir si la notice IdRef contient un équivalent BnF
      • Si elle a une indexation Rameau / Dewey, on les prend
        • Et on récupère dans les notices IdRef les identifiants BnF de ces concepts Rameau / Dewey
      • Au passage : si un catalogueur du réseau Sudoc a déclaré un homothétique papier (version imprimée équivalente à la version électronique) : on récupère l’ISBN, et on regarde s’il existe dans le catalogue BnF
    • L’indexation Rameau fait l’objet d’un traitement particulier :
      Les notices WorldCat fournissent uniquement une indexation LCSH
      Or 105.000 notices Rameau contiennent des équivalents LCSH
      Donc il est possible de convertir l’indexation LCSH en indexation Rameau :

      • A condition de respecter les règles d’utilisation Rameau (ne pas mettre en tête de vedette un concept utilisable seulement en subdivision, par exemple)
      • A condition que le concept LCSH ne soit pas déclaré équivalent à deux concepts Rameau (dans ce cas, quel concept Rameau choisir ?)
        Pour faire ça, je suis passé par un fichier XML intermédiaire, en local (pour éviter, à chaque libellé LCSH, d’interroger le catalogue de la BnF), qui contenait l’ensemble des alignements LCSH-Rameau et les règles d’utilisation des concepts Rameau

A la fin, on a agrégé un certain nombre d’informations :

  • La description textuelle du document (Titre, mention de responsabilité, date, éditeur, nombre de pages, etc.) : de WorldCat uniquement
  • Les liens aux notices d’auteurs :
    • Si l’imprimé existe à la BnF, du catalogue BnF
    • Si la version électronique a été cataloguée manuellement dans le Sudoc, du Sudoc
  • L’indexation Sujet :
    • du catalogue BnF, si on a la version imprimée
    • du catalogue Sudoc, si la notice du ebook a fait l’objet d’une indexation Rameau manuelle
    • de la conversion LCSH à Rameau
  • La déclaration d’homothétique papier : venant du Sudoc uniquement

 

On peut ensuite reconstruire la notice cible, avec un ordre de préférence : par exemple pour l’indexation Sujet, on préfèrera l’indexation BnF, puis l’indexation Sudoc, puis la conversion LCSH-Rameau.

Le cœur de ce dispositif, ce sont les alignements :

  • Alignements entre notices bibliographiques, qui permettent de reporter d’une notice à l’autre certaines informations
  • Alignements entre référentiels (LCSH-Rameau), qui permettent de convertir dans un vocabulaire ce qui a déjà été exprimé dans un autre.

Résultat quantitatif

Sur les 95.000 notices de ebooks rattachées à des bouquets, voici les liens générés

Nombre de notices avec au moins 1 lien $3 en zone 606 Indexation Rameau 77322 81,39%
Nombre de notices avec au moins 1 lien $3 en zone 676 Indexation Dewey 26239 27,62%
Nombre de notices avec au moins 1 lien $3 en zone 700 Liens auteurs 10234 10,77%
Nombre de notices avec au moins 1 lien $3 en zone 432 Homothétiques imprimés 1614 1,70%
Nombre de notices avec au moins 1 lien $3 en zone 710 Liens auteurs Organisations 956 1,01%
Nombre de notices avec au moins 1 lien $3 en zone 607 Indexation géographique 526 0,55%
Nombre de notices avec au moins 1 lien $3 en zone 600 Indexation personne 330 0,35%

Pour l’indexation Sujet, c’est plutôt très satisfaisant. L’essentiel vient des équivalences LCSH-Rameau alimentées par le Centre Rameau : cela se voit au fait que les liens vers les auteurs (zones 700) sont beaucoup moins importants ; on n’a de version imprimée que dans 10% des cas.

Evidemment, toutes ces notices sont récupérables.

Questionnement final

Chaque notice obtenue est donc le résultat de l’agrégation de plusieurs sources.

Il est possible de revenir au fichier intermédiaire (un énorme fichier XML) qui permet de voir, pour chaque ISBN, ce qui a pu être rapatrié de la BnF, du Sudoc et de WorldCat. Mais c’est complètement invisible dans la notice Marc finale. Par par manque de bonne volonté : mais parce que le format Marc prévoit de donner la source d’une notice (l’ARK BnF, le numéro WorldCat) – mais pas de sourcer un élément d’information au sein d’une notice.

Il sera très tentant de recommencer l’expérience sur des documents non encore indexés à la BnF, mais indexés ailleurs.

Les champs d’applications me réjouissent d’avance

Ci-dessus, une utilisation d’un web service Worldcat qui rend compte de l’indexation de chaque ouvrage, au sein de laquelle on peut identifier ce qui relève d’une mention « genre de l’œuvre »

Commentaires fermés