Skip to content

FRBRisation des imprimés français du XXe siècle

29/03/2018

Ceci est la suite du précédent billet.

Je re-précise tout de suite : on ne fait pas du vrai FRBR à ce stade. On identifie l’étape suivante pour avancer vers le modèle FRBR. Potentiellement, on découvre en cours de route que cette étape doit être précédée d’un certain nombre de choses — qu’on traite progressivement jusqu’à arriver au bout du projet. Puis on se donne un autre objectif.

Il y a deux raisons principales qui font qu’on ne peut pas convertir les notices concernées en FRBR pur :
(si on supposait que la normalisation est terminée, que le format de catalogage a été finalisé pour implémenter ce modèle, et que la manière d’alimenter ce format a été déterminée. Sinon ça en fait trois de plus)

  1. l’outil de catalogage n’est pas prévu pour, on ne saurait pas comment décrire, stocker, afficher, naviguer dans les entités créées
  2. les données sur lesquelles on travaille sont ce qu’elles sont

Les limites de l’environnement de travail

La BnF dispose de deux plateformes distinctes sur lesquelles (re)travailler ses données avec en vue le modèle FRBR : le catalogue, qui stocke les notices en (Inter)Marc, et data.bnf.fr, qui gère les données dans une base de données et les expose en RDF. Le catalogue alimente data.bnf.fr

Depuis 2011, data.bnf.fr s’efforce de « faire du FRBR » aussi bien que possible avec les données disponibles. Donc data.bnf.fr permet de tester des trucs en avance de phase, et quand c’est possible on les reverse ensuite dans le catalogue. Ce fut le cas de 185.000 liens entre notices bibliographiques (considérées comme autant de « manifestations ») et notice d’autorité Titre (considérées comme des « oeuvres ») ajoutés automatiquement, en plusieurs fois, depuis fin 2015.

Aujourd’hui dans le catalogue ne peuvent exister que deux types de notices :

  • les notices bibliographiques, décrivant les documents
  • les notices d’autorité, décrivant les autorités, notamment les auteurs Personnes physiques et organisations, ainsi que le vocabulaire Rameau

Parmi les notices d’autorité ont été créées plusieurs dizaines de milliers de « notices d’autorité Titre« , permettant notamment de faire de l’indexation matière pour dire que tel ouvrage est une étude sur Madame Bovary, par exemple. Si on veut créer davantage d’oeuvres (pour progresser dans l’implémentation du modèle FRBR), on peut donc créer davantage de notices d’autorité Titre et faire comme s’il s’agissait d’oeuvres au sens du modèle.

En revanche dans cette base de données du catalogue BnF rien ne permet de positionner correctement des Expressions. Or le modèle LRM les met finalement bien plus en valeur que l’oeuvre elle-même. Cela ne veut pas dire qu’on ne va rien faire (je parlerai des expressions dans un autre billet), mais qu’il sera impossible d’avoir des expressions dans le catalogue sauf à changer complètement d’outil et/ou de base de données.

Il est donc possible de travailler d’abord à la création automatique des oeuvres : parce qu’on peut expérimenter quelque chose dans data.bnf.fr et envisager ensuite de reverser le résultat (si satisfaisant) dans le catalogue.

Que veut dire « créer automatiquement des oeuvres »

Le principe consiste à identifier par algorithmes un ensemble de métadonnées comme permettant de décrire une même oeuvre.

Le mécanisme est le suivant, pour un auteur donné :

  • récupération de tous les titres dans les notices bibliographiques qui lui sont associées
  • regroupement des titres par similarité de chaîne de caractères
    (« Guerre et paix » de Tolstoï doit être associé à « La Guerre et la paix »)
  • évacuation des regroupements
    • qui contiennent déjà un lien vers une notice d’autorité Titre
      (il ne faudrait pas recréer une notice d’oeuvre Guerre et paix, ça ferait tâche)
    • qui contiennent des mélanges : agrégats, ou manifestations agrégatives, selon la terminologie LRM — toutes ces Oeuvres complètes qui peuplent abondamment le catalogue de la BnF et Gallica
      (là aussi, il serait risible qu’on révèle au monde que Balzac a écrit un chef-d’oeuvre inconnu, intitulé Oeuvres complètes)

L’outil de traitement : RobotDonnées

Ainsi que cela a été présenté le 14 novembre dernier, la BnF met ce projet en place en utilisant RobotDonnées, un outil qui exploite certains programmes développés dans le cadre du projet data.bnf.fr. Je réalise que dans le diaporama mis en ligne sur le site de la Transition bibliographique, toutes les copies d’écran se superposent (diapo 22) — toutes mes excuses !

Du coup voici, pour les diapos relatives à RobotDonnées, la version Google Drive, qui permet d’afficher les images une à une.

Un corpus pour démarrer : les imprimés français du XXe siècle

En réalité, outre le projet data.bnf.fr, la BnF a conduit ces dernières années une autre expérimentation de FRBRisation. Indépendamment de ce qu’il est advenu de l’aventure, le projet ReLire a bel et bien eu besoin de travailler au niveau des oeuvres, afin de constater que toutes les éditions successives sont épuisées.

L’équipe Analyses & Traitement des données a donc capitalisé sur l’expertise de l’équipe ReLire, et son utilisation de RobotDonnées, pour travailler sur les ouvrages imprimés des auteurs français du XXe siècle. On choisit donc :

  • une production pour laquelle la BnF est censée avoir l’exhaustivité, tant sur le plan géographique que chronologique
  • une langue stable, qui évite les évolutions de graphie des termes
  • des données propres
    … ou pas ?

Les données manipulées

RobotDonnées prend en entrée une liste d’auteurs. L’idée est, pour ces auteurs, d’extraire les formes de titres, de regrouper les formes identiques et de générer des oeuvres.

Un deuxième projet s’est greffé là-dessus : pour les éditions agrégeant plusieurs oeuvres, voir s’il était possible de lier la forme de titre à une notice d’oeuvre pré-existante — à condition que dans la notice bibliographique on puisse correctement associer la forme de titre avec son auteur (soit parce qu’il y a un seul auteur mentionné dans toute la notice, soit parce que la notice est suffisamment structurée pour éviter tout risque de confusion).

Or ce sont les mêmes auteurs dont les oeuvres sont publiées tantôt sous forme d’agrégats, tantôt sous forme de monographies.

Donc une première extraction des formes de titres a permis de sortir tout ce qui était suffisamment structuré pour considérer que le titre en question était bien associé à l’auteur en entrée

Pour tout ça, on est évidemment tributaire des données du catalogue.

Suivant ce processus, il faut éviter de faire croire que Pagnol a écrit une oeuvre intitulée « César, Marius, Fanny »

Nous menons donc un double travail :

  • affiner les paramétrages pour que ce qui sort des traitements automatiques soient propres (ou à peu près)
  • identifier des chantiers de reprise et de correction des données : dans les cas où la correction peut être appliquée en masse, rendre les notices plus conformes aux consignes de catalogage actuelles (sans les rendre parfaites pour autant), et améliorer les notices d’oeuvres produites par RobotDonnées
    Parmi ces chantiers :

    • l’attribution d’une date en zone codée, lorsque celle-ci était présente ailleurs dans la notice
      (pour calculer la date de création de l’oeuvre à partir de sa manifestation la plus ancienne)
    • le nettoyage des zones de titres structurées ainsi :
      Nom d’auteur. Titre d’ouvrage
      Ce genre de pratique n’est pas gênante pour accéder au document. Mais on ne va pas mettre dans data.bnf.fr qu’Emile Zola a écrit « Emile Zola. L’assommoir ».
    • la correction des rôles indéterminés : il y a dans data.bnf.fr près de 200.000 expressions liées à leurs auteurs par un rôle indéterminé. Ce qui, avec les codes de langues, va se révéler gênant quand on voudra travailler sur les expressions.
    • le nettoyage des notices analytiques (ou sous-notices, dont le rôle est d’assurer le dépouillement du contenu d’un ouvrage quand on le juge utile) quand elles signalent des « préfaces »
      Cette information doit être convertie en rôle « préfacier » au niveau de la notice principale, pour éviter de créer des milliers d’oeuvres intitulées « Préface », « Introduction », etc.

Calendrier et volumétrie ?

M’avancerai-je sur un calendrier ? Disons que vous devriez trouver des oeuvres « calculées automatiquement » dans data.bnf.fr courant 2018, pas mal de choses sont en bonne voie. La bonne nouvelle est que la phase « Regroupement par formes de titres » a déjà été réalisée pour 100.000 auteurs.

Sur la volumétrie, c’est encore plus compliqué : on part sur un ensemble de 400.000 auteurs. A partir de là, on ignore encore :

  • combien chacun a publié de livres
  • combien d’oeuvres (regroupements de formes de titres) pourront être identifiées
  • combien de regroupements contiendront des agrégats (pour lesquels ils ne sera donc pas encore possible de calculer des métadonnées d’oeuvres)

Donc il n’est pas vraiment possible d’identifier encore le nombre d’oeuvres qui seront ainsi générés dans le cadre de ce chantier.

Et ensuite ?

Quand on aura fait tout ça et que tout le monde 95% de tout-le-monde sera content du résultat, on pourra aller un cran plus loin :

  • corpus d’autres périodes
  • corpus autres que textuels
  • injection des données dans le catalogue
  • expérimentations sur les expressions
  • articulations avec les notices de regroupements générées dans le Sudoc (voire d’autres réservoirs)
  • et il sera prochainement question aussi de la manière dont d’autres bibliothèques pourront plus facilement récupérer tout ce travail (dans la continuité de cette présentation)
Publicités
No comments yet

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s

%d blogueurs aiment cette page :