Skip to content

20-21 mars 2018 : Deux journées professionnelles sur les métadonnées

04/04/2018

Fin mars se sont tenues à la BnF deux journées professionnelles, dont les vidéos seront bientôt en ligne :

  • Le 20 mars : une journée sur la diffusion des données BnF, sous le titre « Quelles contributions de la BnF à la circulation des données ? »
  • Le 21 mars : un sommet ARK international

Photo @iladpo – Twitter

Je ne vais pas vous en faire un résumé (d’autant que j’ai malheureusement raté une partie de la seconde), mais dégager quelques points saillants.

Commençon par souligner que manifestement chacune répondait à une attente forte, pour différentes raisons.

Première présentation officielle du SRU BnF

Depuis son lancement à l’automne dernier, c’est la première présentation en auditorium du SRU de la BnF (c’est-quoi-un-sru). Il est encore tout jeune, et je pense qu’il va mettre du temps à trouver son public.

Les bibliothèques qui récupèrent les données de la BnF via le serveur Z39.50 disposent là d’un outil qui fonctionne et répond à leurs besoins actuels. Lui substituer le SRU pour faire la même chose revient pour l’instant à juste dépenser de l’argent (développements et implémentation prestataire) et du temps pour un service équivalent, alors que le Z39.50 ne s’arrêtera pas tout de suite. Donc il faut retenir plusieurs choses :

  • de nouveaux services peuvent être envisagés, et conçus bien plus facilement en se greffant sur un SRU qui utilise les technologies du web (HTTP, XML) qu’en allant chercher le Z39.50 (techno ancienne, inutilisée hors des bibliothèques).
    Il faut donc espérer que se constitue peu à peu un ensemble de retours d’expériences, et de partage de logiciels ou bibliothèques de fonctions, autour de cette base de données désormais accessible.
    A noter que ces services / outils peuvent être de type

    • synchrone : affichage en temps réel dans une interface web d’informations récupérées dynamiquement du SRU
    • asynchrone : fonction d’export et de récupération pour alimenter un fichier, une page web, une base de données
  • notamment, il y a des services/outils/plateformes à envisager qui combinent diverses sources, dont le SRU — mais aussi data.bnf.fr, Gallica, et des trucs hors BnF : ISTEX, un SRU Sudoc, etc.
  • Les bibliothèques doivent peu à peu (au gré des marchés de réinformatisation) demander un module d’import SRU plutôt que Z39.50 pour récupérer les notices BnF :
    • les critères de recherche sont plus nombreux, notamment sur les autorités
    • les limitations techniques (nombre de notices récupérables) sautent
    • le SRU n’est pas dépendant de l’iso2709 (format standard d’échange des notices en Marc),
      • qui ne permet pas de faire passer des notices trop longues
        (il faut qu’elles soient très longues : une zone peut avoir jusqu’à 10.000 caractères. Mais ça se trouve !)
      • qui est très contraignant et fragile : c’est illisible (cf. 3 notices Unimarc en iso2709), on rencontre toujours des problèmes sur les encodages, etc.

Astuce pour extraire une liste de notices en format Marc du SRU

Si vous avez une liste d’ISBN, ou une liste de numéros de notices : vous pouvez les chercher dans le catalogue public, bien sûr. Mais si vous voulez d’emblée regarder le formqat Marc des notices, vous pouvez copier-coller la liste des ISBN ou des n° de notices (ou ARK) dans le critère de recherche idoine

Ce qui vous permet d’afficher une liste de notices Marc
(plus rapide que de lancer une requête dans le catalogue, sélectionner les notices en haut de la liste, puis bouton « Voir la sélection »)

C’est ce genre de cas d’utilisation qu’il faut progressivement identifier pour être amenés à utiliser le SRU à bon escient, comme complément du catalogue et du serveur Z39.50.

De plus en plus d’ISNI

Il y a actuellement 1,8 millions de notices d’autorité Personnes dans le catalogue BnF. Dont 83% avec ISNI. Si l’ISNI est adopté par toute la chaîne du livre qui publie et diffuse la production éditoriale, le circuit de traitement des ouvrages en sera grandement facilité, y compris dans la manière dont le catalogage courant en FRBR pourra être mis en place.

Créer une nouvelle zone Marc, c’est facile ?

Mon passé d’administrateur de SIGB au SCD de Nice m’avait laissé complètement ignorant de la manière dont, dans de très nombreuses bibliothèques, la collaboration avec le prestataire SIGB se passe. A l’Abes comme à la BnF, comme dans un SCD, l’établissement est autonome sur l’évolution du format de catalogage : si une nouvelle zone s’avère nécessaire, l’administrateur SIG (ou catalogue) la configure dans le module de catalogage, on paramètre l’indexation, les facettes, l’affichage — et voilà.

Mais dans de très nombreuses bibliothèques la création d’une zone, et la configuration de l’outil pour l’exploiter, passe par une prestation.

Donc lorsque l’Abes crée la zone 219 pour le Sudoc (nouvelle zone Unimarc de date conforme à RDA-fr), les SCD l’intègrent sans trop de difficulté (du moins je le suppose — en tout cas je sais qu’à Nice ça n’aurait pas posé de problème particulier) ; la BnF suit le même choix parce que les agences collaborent — et en soi c’est une bonne chose. Sauf que les bibliothèques qui récupèrent les notices BnF ne sont pas comparable au bibliothèques universitaires. Et ce peut être compliqué que de choisir de payer une prestation au fournisseur du SIGB, pour un gain de service à peu près nul (si ce n’est pour éviter une non régression).

Data.bnf.fr a mis à jour son modèle de données

C’est la petite toilette de printemps annuelle.

Simplifications dans les URI du graphe

(pour voir directement les schémas, c’est sur la page Comprendre le modèle de données de data.bnf.fr)

Les URI ont été harmonisées : au lieu d’avoir des oeuvres en URI_ark#frbfr:Work, des personnes URI_ark#foaf:Person, des collectivités en URI_ark#foaf:Organization, tout est passé en #about.

Donc

  • les propriétés associées à la notice (date de création, date de dernière modification, lien au catalogue, FRBNF) sont associées à l’URI contenant l’ARK seul (exemple : http://data.bnf.fr/ark:/12148/cb13896861p)
  • les propriétés associées à la « chose », personne, oeuvre, etc. (titre, nom, date de création ou de naissance) sont associées à l’ARK#about (exemple : http://data.bnf.fr/ark:/12148/cb13896861p#about)
    Les URI #foaf:Person, #frbr:Work, etc. sont déclarées comme owl:sameAs l’URI#about, mais ne portent plus aucune propriété

Et on a pu supprimer la double URI #frbr:Expression et #Expression (jusque là, suite à un bug historique, le type d’expression, la langue et le lien à la manifestation étaient supportées par l’URI #Expression, tandis que les mentions de responsabilités étaient portées par l’URI #frbfr:Expression, les 2 étant reliées par un owl:sameAs).

Par exemple, avant, pour aller de l’ISBN au nom d’auteur, il fallait faire :

ISBN > manifestation > expression > frbr:expression 
          > auteur#about > auteur#foaf:Person > nom d'auteur

Désormais :

ISBN > manifestation > expression > auteur#about > nom d'auteur

Ce qui est plus logique et plus court.

Les anciennes URI restent valides, avec des owl:sameAs pour pouvoir continuer à les exploiter

Autres mises à jour

  • les ISBN sont décrits d’une manière plus souple :
    • les ISBN10 comme bnf-onto:isbn & bibo:isbn10
    • les ISBN13 comme bnf-onto:isbn & bibo:isbn13
      Il est donc possible de les distinguer, ou de les récupérer de manière indifférenciée
    • Par ailleurs, jusque là seul le 1er ISBN de la notice était récupéré. Ils le sont désormais tous.
  • Suite notamment au hackathon et au début de gros chantiers autour de Rameau, les alignements avec des référentiels extérieurs ont été enrichis.
    • les alignements avec les LCSH (vocabulaire de la Bibliothèque du Congrès) sont ceux validés un à un par les experts du centre Rameau, au lieu d’être calculés à la volée dans data.bnf.fr
    • Pour le domaine musical, on trouve de nouveaux alignements vers MusicBrainz depuis les auteurs (exemple : Mozart) ou les oeuvres (exemple : Let it be)
  • Et quand même : une amélioration notable des temps de réponse de l’interface (mais je ne dénoncerai personne)
  • un petit truc sympa : si vous prenez une notice bibliographique du catalogue (et que son auteur est dans data.bnf.fr) et si dans l’URL vous remplacez « catalogue.bnf.fr » par « data.bnf.fr », vous avez un beau fichier RDF/XML qui s’affiche.
    C’est un peu l’équivalent de l’extension « .rdf » dans les notices Sudoc

Plutôt que des identifiants pérennes, des identifiants gérés

La preuve que cette journée était bien concue : à l’issue de la présentation introductrice (présentation des principes et des concepts) par @SebPeyrard, les questions posées par l’assistance trouvaient systématiquement comme réponse : « Alors justement, ce sera approfondi à tel moment de cette journée — mais voici déjà quelques éléments ». C’est dire si le programme initial correspondait aux attentes de la salle !

Si vous n’avez pu participer à cette journée, vous avez donc tout intérêt à en guetter la rediffusion vidéo !

C’est une leçon essentielle de la journée ARK : les identifiants sont le premier service en ligne que nous devons rendre aux utilisateurs de nos ressources. Et si certaines ressources peuvent ne pas être pérennes (un document retiré pour raisons de droits, ou corruption de fichier, ou parce qu’on ne souhaite plus utiliser le concept décrit dans le référentiel des mots-matières), leurs identifiants doivent l’être.

D’ailleurs, il vaut mieux éviter de se donner un objectif de identifiants pérennes, qui a un goût d’éternité un peu angoissant. En revanche il faut se donner des moyens d’avoir des identifiants gérés.

Cela implique plusieurs choses :

  • un même identifiant ne doit pas servir à décrire successivement des choses différentes
  • si la ressource disparaît ou change d’endroit, l’identifiant doit demeurer
    • soit en fournissant une redirection (automatique ou pas) vers la ressource
    • soit en donnant des informations sur « ce qui s’est passée », ne serait-ce que « Ressource supprimée » — tout plutôt qu’une erreur 404
  • le fait de se préoccuper d’avoir des identifiants pérennes va de pair avec le projet d’une mise en ligne de ressources. Il n’est pas nécessaire d’avoir au niveau de l’établissement des missions patrimoniales, il n’est pas nécessaire que ce soit un gros projet ambitieux. Par contre il vaut mieux que ce soit fait proprement, et dès le début
  • la pérennité des identifiants permet de traverser plusieurs prestataires successifs au-delà de leurs solutions techniques et de leurs briques technologiques.
    Ce qui peut sembler une manière de les indifférencier, peut finalement être pour eux une manière de se distinguer, et devenir un critère de choix dans un appel d’offres. De même qu’en choisissant un SIGB qui vous permette à la fin d’un cycle d’exporter toutes vos données pour les réimporter dans un autre système  — et que vous ne choisiriez pas un SIGB qui ne propose pas de fonction d’extraction du catalogue et de la liste des prêts en cours !
  • quand on commence à envisager ces problèmes et à vouloir les résoudre, on rencontre assez vite ARK sur son chemin, comme un ensemble d’outils qui viennent accompagner la mise en place de solutions.

« Accompagner » n’est pas « résoudre ». L’outil n’est pas la solution. Il faut encore que l’établissement se dote d’une politique, qu’elle communique (en interne aussi !) sur cette politique. D’où ces préconisations de la BnF sur sa propre politique.

Théoriquement et techniquement, les ARK BnF ne peuvent désigner qu’une seule ressource. Mais techniquement rien n’empêche quelqu’un de récupérer une notice, de la vider et d’y décrire un autre document (ou une autre personne à la place). Drôle d’idée ? Pourtant ça se rencontre, et il y a toujours une « bonne raison ».

Ce qui prouve bien que l’enjeu sur les identifiants est avant tout une question de politique d’établissement, et de service rendu aux utilisateurs — avant d’être un problème technique.

De manière générale, au vu d’échanges, et de tweets, passés ces derniers mois, j’ai l’impression que beaucoup d’établissements se sentaient jusque là assez seuls, sans interlocuteurs ou partenaires identifiés, pour se poser les bonnes questions concernant leurs identifiants, et étaient contraints de tout redécouvrir individuellement. Cette journée est la première pierre dans la constitution d’une communauté professionnelle française/francophone. C’est une excellente nouvelle.

Publicités
No comments yet

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s

%d blogueurs aiment cette page :