Skip to content

Le modèle de données de data.bnf.fr évolue

24/04/2017

Pour des raisons de tambouille interne, data.bnf.fr — que ce soient les données ou l’interface — a peu évolué ces derniers mois.

Mais voici que pointe une mise à jour du modèle de données qui n’est pas tout à fait anodine si vous voulez extraire des infos en partant d’éditions (par exemple un ISBN) pour remonter à leur auteur (par exemple) — ou l’inverse.

La mise à jour corrige notamment un bug ou l’expression était redoublée sans aucune raison.

Avant

 

Maintenant

(ça ressemble beaucoup. Les différences sont dans le quart inférieur gauche)

Il n’y a plus qu’une seule expression — en revanche l’auteur se retrouve avec 3 URI :

  • l’ARK « pur », préfixé http://data.bnf.fr/, désigne le concept : forme retenue, formes rejetées ; et gère les métadonnées de la notice : date de création et de modification
  • l’ARK avec suffixe #foaf:Person, qui désigne la personne elle-même, et porte encore la plupart des propriétés de cette personne (date de naissance, etc.)
  • l’ARK avec suffixe #about, qui pour l’instant ne supporte que la mention d’auteur de l’expression — mais à terme remplacera le #foaf:Person

Cette modification est en effet première étape vers un modèle cible où tous les objets (distincts des concepts dont ils partagent l’ARK, mais avec une URI propre à eux)  seront désignés avec une URI dont le suffixe sera #about (au lieu de #frbr:Work, #foaf:Person, #foaf:Organization, etc. comme c’est le cas actuellement)

Attention

J’en profite pour redire une chose importante que j’ai déjà eu l’occasion de signaler ici :

  • Il y a dans data.bnf.fr 8.911.627 manifestations
    Seules 9%
    d’entre elles sont liées à des oeuvres (772.468 aujourd’hui)
  • Si on ne regarde que les textes (en excluant la musique, les films, etc.) :
    seules 6% des manifestations sont liées à des oeuvres (418.673 sur 7.029.163 manifestations)
    En revanche 45% sur les 598957 expressions de type Sound sont liées à des entités « oeuvres » (les règles de catalogage sont un peu différentes, la conséquence en est qu’il y a une plus grande proportion de notices d’oeuvres musicales)

La plupart du temps, le modèle (actualisé) est donc plutôt celui-ci :

Par conséquent, si vous voulez obtenir la liste des ouvrages d’un auteur, ne passez pas forcément par les œuvres.

En effet n’existent comme notices d’œuvres dans data.bnf.fr que celles qui ont un jour été créées dans le catalogue pour des besoins d’indexation (la première étude paraît sur le Da Vinci Code -> on crée une notice d’oeuvre Da Vinci Code, qui se retrouve du coup dans data.bnf.fr).

Par conséquent les œuvres qui n’ont pas fait l’objet d’études de la part d’autres œuvres n’existent pas sous forme de pages dans data.bnf.fr : vous n’y retrouverez que les éditions successives.

Ça devrait changer dans les mois à venir, avec le projet de création automatique d’œuvres, mais ce sera nécessairement très progressif, et pendant longtemps très partiel.

Assurer la pérennité des requêtes SPARQL

Si vous avez peiné pour produire une requête SPARQL qui marche — enfin, qui marchait bien dans l’ancien modèle de données : pas de panique.

Il vous suffit de rajouter en première ligne de la requête :

DEFINE:input same-as "yes"

Ainsi la base de triplets commencera à reporter les propriétés d’une ressource sur toutes les autres ressources qui sont en relation owl:sameAs avec elle.

De la sorte, la ressource « Auteur » en #about récupèrera aussi les propriétés « Nom », « Date de naissance », etc. de la ressource #foaf:Person.

La requête SPARQL décrivant un graphe suivant le chemin de la manifestation à l’auteur, en passant par l’expression, sera ainsi toujours valide.

Pour plus de détails sur le modèle de données

La documentation est beaucoup plus fournie et détaillée sur la page de data.bnf.fr présentant le modèle de données

Publicités

Commentaires fermés

%d blogueurs aiment cette page :