Aller au contenu principal

Les chantiers de correction de données liés à la FRBRisation à la BnF

13/12/2018

Depuis plusieurs mois, l’équipe Analyse & traitement des données (département des Métadonnées) prépare data.bnf.fr à accueillir progressivement plusieurs centaines de milliers d’œuvres, générées par calcul automatisé à partir des notices bibliographiques du catalogue.

Si besoin (ou intérêt), d’autres présentations rendront compte de la méthodologie suivie pour le calcul de ces œuvres. Mais la présentation faite lors de la dernière journée Systèmes & Données du 6 novembre 2018 (à partir de 4h48’40 — suite à un problème technique, le son n’arrive qu’au bout de 8 minutes) en donne déjà une idée, ainsi que la présentation assurée par Raphaëlle Lapôtre, cheffe de produit data.bnf.fr, à la conférence SWIB à Bonn (28/11/2018 – vidéodiaporama — il y a du son, mais c’est en anglais).

Donc pour changer, j’aimerais donner un peu à voir l’envers du décor, non pas le processus de calcul lui-même, mais ce qui se passe avant.

En effet, travaillant de concert avec les porteurs du projet data.bnf.fr, une équipe de collègues travaillent sans relâche sur les données source du catalogue.

Cette équipe existe depuis des années, chargée de l’amélioration des données bibliographiques du catalogue (et plus particulièrement de la reprise des notices produites par l’énorme chantier mené au pas de course de la « conversion rétrospective informatisée », ou CRI). Mais avec le calendrier de la Transition bibliographique, l’activité de cette équipe s’est concentrée essentiellement sur les conditions de la transformation du catalogue en œuvres, expressions, manifestations.
Parce qu’il apparaît rapidement que si on se contente d’exploiter les notices en l’état, ça va être… compliqué.

Commençons par les œuvres

Puisque c’est ce que nous créons en premier, voyons un peu à quelles conditions on peut avoir de belles œuvres à mettre dans data.bnf.fr.

Il faut pour cela :

  • regrouper correctement les notices bibliographiques en œuvres
    Donc : pour un auteur donné, que toutes les éditions d’une œuvre se regroupent parce que les titres successifs se ressemblent suffisamment
  • Eviter de laisser une notice bibliographique de côté
  • Eviter de faire entrer dans le regroupement un truc qui n’a rien à voir (le manuel de mathématiques pour Terminale S n’est pas le même que celui pour Terminale L, les deux fussent-ils du même auteur)
  • générer des métadonnées d’œuvre satisfaisantes, une fois les « clusters » de notices bibliographiques constitués : Dans notre outil actuel (baptisé RobotDonnées), les métadonnées calculées pour les œuvres sont :
    • Titre (original)
    • Autres formes de titre
    • Date de création
    • Langue de l’œuvre
    • AuteursChacune de ces métadonnées doit donc être correctement renseignée dans les notices bibliographiques pour pouvoir remonter proprement au niveau de l’œuvre

Autant de chantiers possibles pour alimenter ou corriger les notices.

Je précise d’emblée qu’étant donné le calendrier, nous sommes obligés de travailler sur « un effet de masse » : certes, la BnF travaille depuis Charles V et pour l’éternité, mais pour l’instant il faut surtout faire en sorte que les œuvres qui seront injectées à partir de fin 2019 dans le catalogue seront les plus correctes possibles.

Et comme le corpus exploré en premier est celui des auteurs français du XXe siècle, on dépasse le million d’œuvres à générer.

Pour chacun de ces éléments d’informations, nous essayons donc d’identifier les moyens d’augmenter significativement la qualité et la richesse des notices, dans un temps court.

[les zones ci-dessous sont exprimées en Unimarc, même si la BnF catalogue en Intermarc. J’espère vous trouver sensibles à mes efforts pour communiquer avec les « territoires » ]

Les dates de publication

Le premier chantier mené, en 2017, a porté sur les dates de publication.

La date est présente dans deux zones dans les notices Unimarc :

  • transcrite telle qu’elle apparaît sur le document, en zone 210$d (on va donc y trouver des valeurs comme « 2017 », mais aussi « DL 2017 » ou « cop. 2017 », ou « an II [1793-1794] »)
  • sous une forme normalisée en zone 100 : uniquement sur 4 chiffres

Or pour 30.000 notices, la forme normalisée n’était pas renseignée alors que la 210$d contenait bien une mention de date.
On a donc réinjecté la date, nettoyée, dans la zone 100 — celle qui est utilisée de préférence par l’algorithme de RobotDonnées.

Les titres et autres formes de titre

Les dates ont été enrichies par anticipation : on savait que les zones étaient vides et que c’était dommage, vu que l’information n’était pas loin.
Pour les titres, toutes les notices ont bien sûr un titre. On n’est donc pas dans le cas où on alimente une zone vide. Ce qui ne veut pas dire qu’il n’y a pas de souci.

C’est la génération des premières œuvres durant les tests du premier semestre 2018 qui ont permis de se rendre compte d’un certain nombre de problèmes : la notion de titre pour une notice bibliographique ne porte pas les mêmes enjeux que pour l’œuvre contenue dans le livre.

Les règles de catalogage en cours il y a quelques décennies ne sont pas sans poser quelques problèmes :

  • pour les thèses, les titres contiennent très souvent la mention de l’Université et de la Faculté dans le titre
  • On va trouver dans le titre (zone 200$a) : le nom de l’auteur (en début ou en fin), le sous-titre, le genre de l’œuvre, la mention d’édition, les diverses collaborations, etc.
    Toutes informations qui ne sont pas très gênantes dans une liste de résultats : on y décrit un document qui contient bien ces informations sur la page de titre.
    Mais prétendre que le père Octave Bischoff a écrit Nouveau livre de prières du travailleur, par le père Bischoff est moins satisfaisant : le titre de l’oeuvre doit être Nouveau livre de prières du travailleur

Plusieurs chantiers ont donc été ouverts pour essayer, non pas de tout nettoyer, mais de restructurer en masse cette information (avec une volumétrie suffisamment significative pour que ce qui en restera ne sera pas ce qu’on verra systématiquement quand on ira sur data.bnf.fr) :

  • Nettoyage des titres de thèses
    • En récupérant la notice Sudoc
    • ou en restructurant la chaîne de caractères
  • Exploitation de la zone « autre forme de titre » pour restructurer la zone de titre ou pour qualifier l’autre forme, afin qu’elle soit exploitée par le RobotDonnées pour générer un « alternate_title »
  • Nettoyage des titres se terminant par le nom de famille de l’auteur, sous toutes formes :
    • , par Prénom Nom
    • , par Initiale. Nom
    • , par le professeur Prénom Nom
    • , traduit du japonais par le P. Nom
    • etc.

Pour chacun de ces chantiers, la méthodologie est la même : un script Python

  • interroge le SRU du catalogue de la BnF,
  • extrait les notices liées aux auteurs français du XXe siècle,
  • regarde si le titre correspond aux conditions du script (thèse, titre se terminant par le nom d’auteur, etc.)
  • génère dans un tableau Excel les formes actuelle et à venir.

Le tableau Excel est confié à un expert du catalogue qui constate les erreurs, les cas non traités, etc. et recommande des évolutions.
Puis le script est amendé, un nouveau fichier Excel est généré, etc.
Jusqu’à ce que le tableau Excel soit pleinement satisfaisant, à savoir :

  • on traite le plus grand nombre de cas automatisables (c’est-à-dire qu’on n’inclut pas ce qui relève de scories, de cas particuliers, etc.)
  • on évite tous les faux positifs (s’il y a un risque de générer une erreur, le programme prend en compte la possibilité de doute et met la notice de côté)


Et au bout, si tout se passe bien, ce sera chargé dans le catalogue

Oeuvres multiples et fautes de frappe

Claude Rostand aurait écrit 2 œuvres :

La seconde œuvre est évidemment due à une faute de frappe dans le titre (coquille décidément trop fréquente !), qui a empêché le classement de la dernière notice avec les autres.
Un nouveau chantier a donc été planifié à l’issue de la constitution du million d’oeuvres : les œuvres quasi-identiques
Quand plusieurs œuvres ont été générées pour un même auteur, et que le titre de ces œuvres est quasi-identique (à une ou deux lettres près) : c’est suspect.
L’identification des œuvres au titre quasi-identique permet de relever des fautes de frappes, présentes actuellement dans les notices bibliographiques, et qu’on propagerait dans les œuvres ensuite.

Dans certains cas c’est plus subtil : la variation de graphie « Plate-forme » / « Plateforme » empêche le rapprochement entre deux titres, car le tiret est considéré comme un séparateur : le premier titre contient donc deux mots, le second titre n’en contient qu’un. Il faut donc non pas corriger les notices (elles retranscrivent ce qui est présent sur la page de titre) mais les compléter en y ajoutant une information commune, qui permettra la clusterisation à l’issue du traitement.

Là aussi, un script a analysé l’ensemble des oeuvres générées pour extraire celles portant quasiment le même titre pour un même auteur. Une analyse manuelle vient confirmer ou infirmer la validité de l’oeuvre (et corriger éventuellement le catalogue).

Les auteurs

RobotDonnées permet de travailler sur un lot d’homonymes : si deux auteurs ont le même nom et le même prénom, et s’ils ont écrit une œuvre de titre identique (ou quasi identique), RobotDonnées va proposer, soit de fusionner les deux notices d’auteur, soit de réattribuer toutes les notices bibliographiques de titre identique à l’un des deux auteurs (pas de manière aléatoire : il y a des règles métier qui s’appliquent).

Mais une fois que nous avons généré le million d’œuvres, nous nous sommes rendu compte que, de même qu’il y a des titres quasi-identiques, il y a aussi des quasi-homonymes.
Imaginons deux auteurs : Fernand Arlong et Fernand Arloing. Tous deux ont écrit un traité Des Techniques bactériologiques, biologiques et vaccinothérapiques de Wright en collaboration avec un certain René Biot. On a donc deux notices :

  • notice1 : René Biot, Fernand Arlong, Des Techniques bactériologiques…
  • notice2 : René Biot, Fernand Arloing, Les Techniques bactériologiques…

Et quand RobotDonnées génère les œuvres de René Biot, on a donc une œuvre à 3 auteurs :

  • Des Techniques bactériologiques…, de René Biot, Fernand Arloing et Fernand Arlong
    résultat de la clusterisation de notice1 et notice2

Il est donc possible d’extraire du million d’œuvres générée l’ensemble des co-auteurs dont les noms de famille sont identiques, à une lettre près.

Et encore ?

Et il y a encore d’autres chantiers en cours ou en préparation, notamment autour des expressions :

  • analyse et reprise des mentions d’éditions
    (zone 205 — du moins en théorie)
  • reprise des notices associées à un auteur par un code fonction « indéterminé » (9990) : que faire dans LRM d’une « relation indéterminée » ? Va-t-on associer cet agent à l’œuvre, à l’expression ou à la manifestation ?
    Donc il faut, autant que possible, identifier la nature du lien pour qu’elle permette ensuite des regroupements corrects.
    Dans de très nombreux cas, la personne dont le rôle est soit disant indéterminé est mentionné ailleurs dans la notice, avec mention de son rôle !

    Là aussi, un chantier est donc en cours pour reprendre ce qu’il est possible de reprendre rapidement

Conclusion

Pas de conclusion pour l’instant : nous sommes en plein dedans. A part celui sur les dates, tous ces chantiers sont ouverts.

Les bénéfices ne seront pas pour data.bnf.fr en réalité : toutes ces oeuvres ont été déjà calculées, et en attente de chargements progressifs dans data.bnf.fr pour le 1er semestre 2019. C’est précisément leur génération qui a permis d’identifier et de lancer tous ces chantiers. Mais la raison d’être de ces chantiers, c’est bien le catalogue lui-même, dont les données doivent être progressivement d’équerre avec le nouveau modèle LRM.

Les notices corrigées sur les prochains mois bénéficieront au nouveau calcul des oeuvres, pour le même corpus, qui se fera ultérieurement — pour être versées dans le catalogue, cette fois-ci.

En tout cas c’est l’objectif !

2 commentaires
  1. Eleonore A permalink
    14/12/2018 15:02

    Merci pour ce retour d’expérience ! En matière de calendrier, quel est l’objectif de la « frbrisation » du catalogue ?

  2. 17/12/2018 10:05

    @Eleonore A : posons d’abord comme principe qu’il y a des éléments d’information que je n’ai pas, et/ou sur lesquels il ne m’appartient pas de communiquer. Notamment les projets en cours du Fichier national d’entités, de la réforme de Rameau ou de la refonte de l’outil de catalogage de la BnF (6h40′). Ces projets ont chacun leur trajectoire, tout en s’efforçant de prendre en compte le calendrier des autres.

    Et en parallèle à tout ça, il y a donc les étapes de normalisation, avec pour chaque nouvelle livraison l’analyse par les agences de ce qui peut être implémenté (dans les systèmes, dans les données et dans les pratiques de catalogage) et à quelle date ça peut l’être.

    Concernant la BnF, un certain nombre de règles ne pourront être implémentées que dans le futur outil (il est exclu de développer dans l’outil de catalogage actuel des fonctionnalités pour y décrire des expressions, par exemple) — et celui-ci passera en production « je ne sais pas encore quand, mais bientôt » (je reprends l’expression de la cheffe de produit BnF dans la vidéo indiquée ci-dessus). « Bientôt », c’est du pluriannuel de toute façon : migrer toutes les chaînes de traitement de la BnF, alors qu’on ne dispose aujourd’hui que d’un prototype, ce sera long.
    Maintenant, si on sait que cet outil de catalogage passera en production en 202X, ce sera d’abord seulement pour une portion de la BnF (à titre de pilote), avant d’y faire passer l’ensemble des autres services (tous ceux qui restent d’un coup, ou progressivement, je ne crois pas que ce soit décidé) : je suppose que, le temps d’avoir des retours de la part du service pilote, et le développement des fonctionnalités identifiées comme manquantes, ça prendra au moins un an de plus.
    Et enfin si on se positionne à l’année 202X+1 (toute la BnF catalogue dans le nouvel outil de catalogage, donc avec le nouveau format et les nouvelles règles), ça ne veut pas dire que le catalogue sera FRBRisé : seulement la production courante.

    A partir du moment où toute la BnF catalogue dans le nouvel outil, on peut envisager 2 scénarios :

    1. Toutes les données du catalogue déjà existantes sont FRBRisées lors de la migration, de manière complexe et automatique
    2. Le rétrospectif est « stocké » dans son ancien format dans le nouvel outil, avec modalités d’affichage public qui lui donne l’apparence d’être FRBRisé, mais sans qu’on ait en réalité touché aux données.
      C’est un lot de notices bibliographiques qui serait ainsi « gelé » à l’intérieur de la nouvelle base de données, et qu’on pourrait dégeler par lots au fur et à mesure de la reprise des notices (dans un processus de dérivation interne, où on les ferait passer de notices biblio en Intermarc à des notices Oeuvre/Expression/Manifestation en Intermarc Nouvelle Génération

    Mais en réalité dans les deux cas, le catalogue rétrospectif ne serait pas vraiment FRBRisé : on aurait juste mis un masque FRBR sur des données antérieures.
    C’est un peu ce qui se passe actuellement dans data.bnf.fr : faute de pouvoir faire mieux pour le moment, les « expressions » dans data.bnf.fr ne sont que 3 propriétés extraites des manifestations et remontées au niveau d’une URI Expression bricolée à partir de l’ARK de la notice bib. Mais ce ne sont pas de vraies expressions au sens ou toutes les notices contenant le texte original (le texte français de Que ma joie demeure/em> de Giono devraient être liées à la même expression. Et là non : chaque manifestation a « son » expression.

    De même dans le catalogue FRBRisé au lendemain de la mise en production du nouvel outil de catalogage, il y aura encore pour une longue période de reprise de l’existant, pour que les entités correspondent réellement à ce que le modèle LRM définit.

    Pour conclure : je n’ai pas de date de « fin de la FRBRisation ». La mise en production complète de l’outil de catalogage, ce sera minimum 3-4 ans. La reprise des données… Je pense que ce qui intéressera en priorité les réutilisateurs sera la production courante, donc quelque part ce n’est important que pour la BnF… et non mesurable pour l’instant.

Commentaires fermés

%d blogueurs aiment cette page :