Skip to content

Croiser des statistiques : l’enjeu des URI

02/03/2013

Voilà un cas pratique qui vient de tomber pour illustrer une utilisation « simple » (oserai-je « intuitive » ?) des URI.

rdf_open_dataL’enjeu

Il y a quelques jours, Symac a initié sur Bibliopedia une page Services numériques en BU, afin de pouvoir décrire et comparer les « services numériques » (au sens décrit dans un précédent billet, c’est-à-dire avec toute la diversité des tâches qui vont ou non rentrer dans cette appellation) entre eux.
Si ce genre de tableau est intéressant, il est à mon sens forcément insuffisant : savoir qu’il y a 3 ou 10 personnes dans un tel service n’est vraiment utile que si ça peut devenir un outil d’aide à la décision, par exemple dans le cadre d’une réflexion sur une réorganisation interne.
Mais pour comparer 2 SCD comptant, l’un 3 personnes et l’autre 10 dans son « service informatique », il faut par exemple savoir

  • combien il y a d’étudiants
  • combien il y a de campus
  • combien il y a de BU
  • quelle est la taille du parc informatique public
  • quelles sont les stats de consultations du site web ou de l’opac

Certes, on pourrait reproduire ces informations, tirées de l’ESGBU (ou d’ailleurs), dans le tableau sur Bibliopedia.
Mais il est beaucoup plus évident de les croiser de manière plus dynamique avec les données ESGBU, ERE, PAPESR, Insee ou autre, en matchant ces tableaux épars sur la base d’un identifiant commun.
Il faut donc que dans le tableau Bibliopedia, je dispose d’un identifiant unique à l’établissement (désignant le SCD ou l’Université) que je retrouverai ailleurs.

Mise en application

ILN

On pourrait par exemple ajouter une colonne ILN.
Pour ceux qui l’ignoreraient, l’ILN est l’identifiant unique désignant l’établissement dans le cadre de sa participation au réseau Abes. Un ILN regroupe généralement plusieurs RCR — les RCR étant les centres de catalogage dans le Sudoc.
Donc en pratique, on trouve

  • Un ILN par SCD
  • Un RCR par BU (+ un RCR pour les collections électroniques)

Si on trouve l’ILN dans les stats ESGBU et PAPESR, par exemple, ce peut être une bonne idée.
A noter que si quelqu’un tombe, dans ce tableau, sur l’ILN, il n’aura aucune définition de ce à quoi ça peut correspondre (sauf évidemment à chercher sur Google).

Identifiant PAPESR

Chaque établissement dont les statistiques sont publiées dans PAPESR a un identifiant interne à la base.  Mais comme cette information n’est visible que dans l’URL, et qu’en plus on ne peut pas faire d’URL profonde à cause de la barrière d’authentification, ça n’a aucun intérêt.

Identifiant Wikipedia

On pourrait aussi rajouter une colonne « Page Wikipedia » de cet établissement — en choisissant l’Université (car beaucoup de SCD n’ont pas de page Wikipedia spécifique) ou la bibliothèque (possible pour la BSG, Cujas, etc.).
Cela permet aussi, si on a décidé dans le tableau Bibliopedia, d’indiquer « Université Jules Verne » (parce que politiquement l’Université veut être appelée ainsi pour sa comm), de lier quand même à Université de Picardie : http://fr.wikipedia.org/wiki/Universit%C3%A9_de_Picardie
L’intérêt, en ajoutant cette URL, c’est qu’en cliquant dessus l’utilisateur sait de quoi il s’agit et a déjà des informations complémentaires sur l’institution.

Identifiant DBpedia

C’est le même que l’identifiant Wikipedia, sauf que l’URL racine n’est pas
http://fr.wikipedia.org/wiki/
mais
http://fr.dbpedia.org/resource/
Cela permet du même coup de se raccrocher au web des données (et d’exploiter automatiquement les diverses infos présentes dans la notice DBpedia), et d’utiliser les technologies afférentes.

En soit, dans le cas présent, l’objectif n’est pas forcément d’exploiter les triplets de la fiche DBpedia présents derrière l’URI, mais plutôt :

  1. de se mettre dans la philosophie de DBpedia
  2. d’utiliser un URI plus souvent utilisé ailleurs, dans d’autres bases qui ont besoin de tels référentiels (et qui utiliseront plus volontiers l’URI DBpedia que l’URL de la page Wikipedia correspondante)

Pourquoi faire intervenir le web des données dans cette histoire ?

Le langage de requête SPARQL, qui exploite les triplets RDF, est particulièrement bien adapté pour la jointure de 2 (ou plus) jeux de données.
Il permet très facilement de jointer plusieurs tableaux utilisant un référentiel (ILN, Wikipedia, DBpedia, etc.) commun.
Il permet aussi très facilement d’associer plusieurs tableaux n’utilisant pas un référentiel commun, mais utilisant des référentiels distincts pour lesquels les correspondances existent.
Quand j’avais exploré la mise en RDF de données statistiques (le dernier billet de cette série est là), j’avais notamment fait une correspondance PAPESR-Wikipedia (donc DBpedia), dans une version RDF/XML (assez rapide
Pour revenir à la question Bibliopedia : l’ajout de l’ILN pourrait être le plus pertinent dans notre contexte, à condition de disposer ensuite d’une table de correspondance.
On trouve la liste des ILN dans la recherche avancée du Sudoc (index « Etablissements documentaires »), en allant fouiller dans le code des pages. J’imagine cependant qu’il en existe une liste plus « officielle » quelque part.
Si ensuite on fait une table de correspondance ILN – Wikipedia, la correspondance ILN – PAPESR se fait toute seule — et on peut donc croiser facilement les données publiées sur Bibliopedia relativement aux services numériques du SCD, avec les données PAPESR.
Dans l’ESGBU, ce sont encore d’autres codes d’établissements : les mêmes qu’on retrouve sur Poppee. Bref, il faudrait (et il serait pertinent) de faire là encore une table de correspondance vers Wikipedia, DBpedia ou ILN.
Le résultat une fois qu’on a tout ça ?

  • identifier l’établissement qui me ressemble le plus en nombre d’ETP du SCD, d’étudiants, de nombre de salles de lecture et de postes informatiques
  • et voir si les ressources humaines mises sur les questions informatiques sont les mêmes
  • si mon établissement a mis plus de « monde » sur les services numériques :  voir si les stats de consultation de l’opac  et du site web fournissent des résultats en proportion(ce n’est qu’un indicateur parmi d’autres, mais c’est le seul, sur l’ESGBU, qui permette d’évaluer l’efficacité des moyens mis en oeuvre)
    (ce n’est qu’un indicateur parmi d’autres, mais c’est le seul, sur l’ESGBU, qui permette d’évaluer l’efficacité des moyens mis en oeuvre)

C’est d’une utilité évidente, non ?
Pas forcément sur cette question-là des services numériques en BU, mais de manière générale de fournir un URI (pour faire court : identifiant unique qui prend la forme d’une URL) dans la perspective d’une utilisation élargie, ultérieurement.

Question annexe : où mettre ces tables de correspondance ?

Il faudra évidemment disposer d’un tableau d’équivalences ESGBU-PAPESR-ILN-identifiants Ministère-DBpedia-Wikipedia.
Certains bouts existent déjà forcément à droite ou à gauche. Ca peut se faire très simplement dans un tableur Google Docs public (ou un fichier RDF/XML sur la même plate-forme). Mais je ne connais pas de base qui hébergerait spontanément ce genre d’infos produites par des citoyens lambda. Freebase peut-être ? On suggère Open Metadata Registry, dont j’ignore tout (j’ai l’impression qu’il permet surtout d’enregistrer des vocabulaires, des ontologies — là, il s’agit juste de relier les ressources par paires, avec le prédicat “owl:sameAs”).

<Mise à jour du 3 mars>En fait, je me demande si tout simplement la vraie bonne source ne doit pas être VIAF, qui est là pour gérer les autorités à destination des utilisateurs du web des données (homme et machines), avec correspondances entre différents identifiants désignants une même ressource, etc. Sauf que j’ignore tout du mode d’alimentation de cette base. La Bibliothèque Universitaire de Nice (en tant que service commun, pas en tant que salle de lecture, n’y paraît pas).</Mise à jour du 3 mars>

2 commentaires
  1. 04/03/2013 09:48

    VIAF! mais bien sûr! J’ai un vrai problème avec VIAF, je n’arrive pas à en faire un réflexe. Rrrah.
    VIAF s’appuie sur les autorités du Sudoc et de la BnF (pour la partie française). Si le SCD n’a participé à rien en tant qu’auteur, éditeur ou autre sous ce nom, l’autorité n’a pas été créée et n’existe pas.
    On trouve quand même Université de Nice. Bibliothèque – ce n’est pas l’appelation que vous avez retenu? http://viaf.org/viaf/126249308/#Universite%CC%81_de_Nice._Bibliothe%CC%80que

    Par contre Poitiers y est bien comme SCD. Mais ce serait bien que le référentiel BnF et le référentiel DNB s’accordent. Je ne sais pas si on peut agir quelque part : http://viaf.org/viaf/search?query=local.names+all+%22service%20commun%20documentation%20universit%C3%A9%20de%20poitiers%22&stylesheet=/viaf/xsl/results.xsl&sortKeys=holdingscount&maximumRecords=100

Trackbacks

  1. RDF | Pearltrees

Les commentaires sont fermés.

%d blogueurs aiment cette page :