Aller au contenu principal

50.000 oeuvres calculées dans data.bnf.fr

31/10/2019
Depuis le 25 octobre, date de la dernière mise à jour des données dans data.bnf.fr, vous pouvez voir admirer plusieurs dizaines de milliers d’oeuvres générées automatiquement sur la plate-forme data.bnf.fr, au milieu des 270.000 autres oeuvres créées à la main depuis de nombreuses années par les catalogueurs de la BnF.
Elles ne sont pas accessibles de manière spécifique dans l’interface : en naviguant dans data.bnf.fr, soit via la liste des oeuvres soit en faisant des recherches dans l’interface, vous pouvez tomber dessus occasionnellement. Elles sont reconnaissables à leur mode d’affichage et à leur URL
oeuvre calculee
Ce premier chargement de masse est l’occasion de rappeler les étapes précédentes, le contour de ce qui a été chargé, et ce qui est prévu pour la suite

3 ans de travail

La naissance de RobotDonnées

En juin 2016, Logilab, le prestataire en charge du développement de data.bnf.fr, livrait une plate-forme spécifique qui reprenait certains algorithmes de data.bnf.fr, en permettant à l’utilisateur professionnel de les exécuter en faisant varier certains paramètres pour les exécuter sur des corpus dédiés. Cette plate-forme fut baptisée RobotDonnées.
RobotDonnees
RobotDonnées contient notamment 3 algorithmes qui peuvent être utilisés successivement afin d’identifier et générer des oeuvres :
  • extraction des formes de titre : pour un auteur ou une liste d’auteurs, on extrait les formes de titre de leurs ouvrages
    Exemples de paramètres disponibles :
    • le code fonction qui détermine qu’un auteur est un auteur (un illustrateur est-il un auteur et doit-il remonter au niveau de l’oeuvre ? un réalisateur ? un adaptateur ? un préfacier ? un éditeur scientifique ?)
    • qu’est-ce qu’un titre : que faire des « autres formes de titre », du titre original, du titre d’ensemble, du titre de partie ?
    • les titres sont extraits pour être ensuite regroupés dans des « clusters » : n’y a-t-il pas des mots à nettoyer des titres, qui empêcheraient ce regroupement.
      Si on a « Bérénice, drame en 5 actes » d’un côté, « Bérénice, de Jean Racine » (oui, souvent l’auteur mentionné sur la page de titre a été mis dans la zone de titre et ça ne gênait pas grand monde), les 2 titres contiennent trop de mots différents
      On peut donc supprimer des mots vides (« en », « drame », actes », « de ») mais aussi demander à nettoyer le titre à partir de la chaîne de caractères « , drame » ou « , roman »
  • regroupement des formes de titre : pour chacun des auteurs dont on a extrait les titres, on veut les regrouper quand ils sont suffisamment proches.
    Une certaine différence peut être tolérée (ou pas) : dans RobotDonnées, ça se calcule par nombre de mots à remplacer, supprimer, ajouter, entre 2 formes de titre, et c’est une distance (dite « de Jaccard« )
  • génération de notices d’oeuvres à partir des regroupements :
    • pour un cluster de notices bibliographiques, identifiant du document le plus ancien
    • récupération de la date, de l’auteur, du titre de l’oeuvre et des autres formes de titre (présentes dans la notice du document le plus ancien, ou dans les notices des éditions ultérieures)
    • constitution avec toutes ces métadonnées d’un fichier JSON que data.bnf.fr est capable d’absorber

RobotDonnées / ReLire

Le tout premier utilisateur de cet outil à son lancement fut le projet ReLire (ou Les indisponibles du XXe siècle). Pour les plus jeunes d’entre nous, je rappelle succinctement que ce projet visait à identifier les oeuvres d’auteurs du XXe siècle devenues introuvables dans le commerce, et dont le contenu justifiait une seconde vie sous forme d’édition numérique, la numérisation s’appuyant sur les collections de la BnF et sur la commercialisation par des éditeurs spécifiques. Ce projet fut contesté par des auteurs qui n’avaient rien demandé, passa ensuite par des péripéties autant judiciaires que mouvementées qui aboutit à son interruption.
Ce qu’on peut en retenir tout de même, c’est qu’on trouve là un cas d’usage excellent (quoique non évident) de l’intérêt du modèle FRBR : car pour identifier qu’une oeuvre est devenue indisponible, il faut certes s’appuyer sur une base commerciale qui indique que pour chaque livre édité, tous les exemplaires ont été vendus ou liquidés ; mais il faut également pouvoir rattacher toutes les rééditions à une même oeuvre (pour constater qu’elles sont toutes épuisées), donc constituer au moins une partie de l’arbre FRBR.

Les imprimés d’auteurs français du XXe siècle

Mais la BnF doit aussi dérouler sa stratégie concernant l’implémentation de la Transition bibliographique, et transformer progressivement ses données. Toutefois, tant que son catalogue est géré dans un outil conforme au modèle ISBD, il n’est pas possible d’y stocker des notices FRBR : on peut néanmoins essayer d’y systématiser ce qui existe déjà et nous permet de nous approcher de ce modèle. Donc si pour le moment on n’a nulle part où stocker ce que pourraient être des expressions, on peut en revanche multiplier les notices d’autorité Titre, qui ressemblent beaucoup à ce que sont les oeuvres FRBR.
Donc la FRBRisation passe par la création d’oeuvres, en partant des notices bibliographiques existantes.
Le corpus de départ : les auteurs français du XXe siècle, pour les raisons suivantes :
  • on a commencé à y travailler avec ReLire, donc on a un petit capital de connaissances sur la bonne manière de nettoyer et regrouper les formes de titre (sous quelle forme sont susceptibles d’apparaître dans les zones de titre des mentions d’auteurs ou d’éditions qui n’ont rien à faire là… mais s’y trouvent quand même)
  • si l’auteur est assez récent, la langue n’a pas trop évolué sur un siècle : on n’a pas à redouter des évolutions orthographiques d’une édition à l’autre, ou des titres saisis selon les règles du livre ancien ; ou encore des titres en latin incluant des mentions d’auteur au génitif
  • le dépôt légal peut être considéré comme exhaustif (autant qu’on peut l’être), ce qui autorise à calculer la date de création de l’oeuvre à partir de l’édition la plus ancienne (supposée première édition). C’est de moins en moins vrai quand on remonte dans le XIXe siècle.
L’année 2018 a été consacrée à traiter par lot les 400.000 auteurs français du XXe siècle (textes imprimés uniquement) identifiés dans le catalogue de la BnF, et à créer plusieurs centaines de milliers d’oeuvres.

Contrôle de données

Dès les premières créations d’oeuvres, on a vu remonter tout un ensemble de problèmes, de plusieurs sortes :
  • ceux liés aux limites de RobotDonnées : celui-ci ne permet pas de tout faire, de tout nettoyer, de tout clusteriser.
    Il a fallu donc faire évoluer certaines fonctionnalités de RobotDonnées, certains paramétrages.
  • ceux liés à la manière dont on s’est servi de RobotDonnées : il y a des subtilités non perçues, des comportements non anticipés, qui avait pour conséquence qu’une oeuvre française traduite en 2 autres langues générait 3 clusters : celui qui regroupait toutes les éditions ; et un par langue de traduction
  • ceux liés aux données sources : soit erreurs de catalogage, soit manque de structuration des données, soit bonne application de consignes du XXe siècle qui nous posent problème aujourd’hui
    Ainsi, si vous cherchez « Thèse de doctorat » dans le moteur de recherche de data.bnf.fr, vous tomberez sur un lot d’oeuvres générées à partir de notices de thèses, où l’on voit bien que le titre de « l’oeuvre » ne correspond pas au titre de la thèse elle-même
theses.png
Dans les notices bibliographiques source, la zone de titre (245$a en intermarc, 200$a en Unimarc) contient le nom de l’Université et de la faculté, ainsi que le titre du diplôme : c’est rigoureusement la transcription de ce que contient la page de titre.
Suite à ces constatations, une demi-douzaine de chantiers relatifs aux titres (ou à d’autres zones, mais quand même surtout aux titres) a bien occupé la fin 2018 et le début 2019, afin de corriger les données du catalogue.

Le chargement dans data.bnf.fr

Le premier semestre 2019 a aussi été consacré à mettre à jour data.bnf.fr pour être capable de recevoir en masse ces milliers d’oeuvres : le module de chargement ne supportait pas bien la montée en charge (on n’a d’ailleurs pas encore dépassé, durant les tests, les 200.000 oeuvres, sachant que le contexte en production apporte toujours de subtiles différences par rapport aux tests).
Il a aussi fallu mettre à jour l’interface web pour qu’elle identifie ces oeuvres et documente le projet (c’est le texte cliquable « Page générée automatiquement », présent sur toutes les pages d’oeuvres calculées, qui permet de fournir une documentation sur le projet à quelqu’un qui tomberait sur une telle page.
Les oeuvres chargées sont toujours celles calculées en 2018 : il a été exclu de les recalculer pour ce chargement dans data.bnf.fr.
En effet, sur ce projet data.bnf.fr n’est pas un outil de diffusion de données validées mais un outil d’expérimentation. 
L’équipe chargée de leur génération a beaucoup travaillé sur la relecture de tableaux Excel pour pister les problèmes et les erreurs, mettre au point la méthodologie, la manière d’utiliser les algorithmes, les contrôles à mettre en place à divers endroits. Mais une fois passées plusieurs semaines à regarder des tableaux, on en vient à se dire : ce qui se serait formidable, ce serait d’avoir une interface de navigation où l’on puisse consulter ces dizaines/centaines de milliers d’oeuvres de manière beaucoup plus agréable, et où le cerveau ne s’engourdirait pas au bout de 25 minutes. Réponse : tiens oui, on pourrait envisager de faire une telle interface, et on pourrait même la baptiser « data.bnf.fr ».
Donc data.bnf.fr retrouve ici son rôle de bac à sable, de la même manière qu’il nous sert depuis le début à expérimenter la modélisation en FRBR à partir des données du catalogue.
On a déjà mis en place un certain nombre de filtres : vous ne verrez pas toutes les oeuvres calculées, car seront filtrées systématiquement :
  • celles dont le titre est vide
  • celles dont le titre contient le nom de l’auteur
  • celles dont la date est aberrante
  • celles dont le titre est suspectement trop long (> 500 caractères)
On ose espérer que la plus grande partie des oeuvres déjà chargée a été correctement calculée, même si on en saura plus dans quelques semaines.
On sait également que certaines oeuvres sont problématiques, et qu’on n’a pour l’instant pas de méthode pour les identifier (par exemple : un titre qui s’appellerait « Un balcon en forêt. Un beau ténébreux » de Julien Gracq).
Bref, en RDF toutes les oeuvres calculées sont identifiables de la manière suivante
  • rdagroup1elements:statusOfIdentification « provisional »@en
    signifie que l’identifiant de la ressource est temporaire
  • prov:wasGeneratedBy <http://data.bnf.fr>
    Cette notice a été générée par data.bnf.fr

Pour la suite

Seules 50.000 oeuvres ont été chargées le 25 octobre. Si la technologie absorbe correctement le passage à l’échelle, il devrait y en avoir prochainement 360.000 de plus : on aurait donc avant fin 2019 dans data.bnf.fr
  • les 280.000 oeuvres créées manuellement par les catalogueurs depuis de nombreuses années
  • 410.000 oeuvres calculées, que l’on pourra ainsi explorer plus aisément, identifier les problèmes et travailler à les corriger
Et dans quelques mois pouvoir charger plusieurs centaines de milliers d’oeuvres supplémentaires, liées à des notices d’autorité « élémentaires » actuellement absentes de data.bnf.fr parce que filtrées au chargement. Ces notices d’autorité élémentaires (constituées généralement uniquement d’un nom et d’un prénom) sont le résultat de chargements antérieurs qui sont venus alimenter le catalogue de la BnF au gré des chargements. Dans l’idéal, chacune de ces notices élémentaires devrait être complétée, dédoublonnée, enrichie. Dans les faits, on sait que le temps va manquer — avec une nouvelle échéance qu’est la mise en place, à échéance de 2 à 4 ans, d’un nouvel outil de catalogage qui n’accueillera plus de notices bibliographiques/notices d’autorité, mais des entités conformes au modèle LRM.
Bref, il faut aussi FRBRiser ce pan du catalogue qui est rattaché aux notices élémentaires, et qui représente environ la moitié des notices de personnes physiques, pour 40% des notices bibliographiques environ.
Les charger dans data.bnf.fr d’abord, c’est une manière de prendre en charge ces notices dans la trajectoire de la FRBRisation du catalogue.
Car c’est bien le catalogue qui est visé : l’espoir pour l’instant est de pouvoir inspecter ces oeuvres dans data.bnf.fr durant 6 mois, et croire avoir fait le tour des problèmes d’ici là, pour s’autoriser à recalculer ensuite intégralement les oeuvres (et bénéficier de toutes les corrections du catalogue qu’on aura faites entre temps, notamment sur les titres) et les charger non plus dans data.bnf.fr, mais dans le catalogue.
Une fois dans le catalogue, elles auront des ARK (identifiants pérennes) et on les retrouvera naturellement dans data.bnf.fr à travers le catalogue.

Et parallèlement

Car oui, il se passe des choses parallèlement : sont en cours de traitement d’autres corpus, et en particulier les films, et les auteurs anglophones du XXe siècle.
On s’efforce également d’aller aussi loin que possible (c’est « possible », le mot important) sur la bonne manière d’exploiter les agrégats (ces documents qui contiennent plusieurs oeuvres, émanant éventuellement de plusieurs auteurs). Mais là dessus ce serait tout un autre aspect du travail réalisé qu’il conviendrait de présenter.
Arrêtons nous donc là pour le moment, en espérant pouvoir y revenir quand data.bnf.fr comptera 700.000 oeuvres.

Commentaires fermés

%d blogueurs aiment cette page :