Skip to content

Créer une ontologie en SKOS – retour d’expérience (2/5) : SKOS ?

03/03/2015

Rappel du plan des billets prévus :

  1. Le projet : explication liminaire
  2. Le format SKOS : petite exploration
  3. SKOS : questionnements infinis sur les subdivisions de termes
  4. Le processus de transformation (petits bricolages)
  5. La mise en ligne finale (et ses limites, du point de vue des principes du web de données)

La demande était, en substance : mettre en ligne un vocabulaire contrôlé dans un format lisible par l’être humain et par l’ordinateur.

Je ne sais pas pour vous, mais moi, spontanément, j’ai tout de suite pensé à SKOS
(ce qui est une erreur : il y a peut-être d’autres solutions, que je n’ai pas davantage envisagées depuis, et qui auraient pu être pertinentes pour le projet).

SKOS : un vocabulaire pour des vocabulaires

SKOS correspond exactement à la commande initiale.

Imaginons que vous voulez publier dans le web de données (donc sous forme de triplets RDF) un vocabulaire contrôlé (comme l’est RAMEAU, ou le MeSH).

En gros :

  • quand vous voulez diffuser un vocabulaire contrôlé, vous allez avoir besoin des notions suivantes :
    • forme retenue
    • forme(s) rejetée(s)
    • définition(s)
    • illustrations et exemples
    • liens entre les différents concepts présentés :
      • « plus large que » :
        « cancer » est plus large que « cancer du sein« 
      • « proche de » :
        « trisomie 21″ et « trisomiques 21 » sont 2 concepts Rameau distincts, mais liés entre eux.
        (oui, je sais, je suis très en forme pour mes exemples)
    • et quelques autres petites choses utiles dont je parlerai plus tard (peut-être=
  • quand vous voulez le mettre dans le web de données, vous allez avoir besoin que ces liens entre concepts soient exprimées sous forme d’URI.
    Par exemple, pour lier le concept « cancer » (URI : http://data.bnf.fr/ark:/12148/cb11931105q) avec « cancer du sein » (URI http://data.bnf.fr/ark:/12148/cb11933256c), il faudra l’exprimer sous la forme :

    http://data.bnf.fr/ark:/12148/cb11933256c skos:broader http://data.bnf.fr/ark:/12148/cb11931105q

    (ou skos:broader est une manière raccourcie de dire : http://www.w3.org/2004/02/skos/core#broader.)

Requête SPARQL (via le Sparql Endpoint de data.bnf qui donne des exemples de concepts liés entre eux par la relation skos:related.
(la requête n’est pas forcément un modèle de syntaxe, mais comme elle fonctionne…)

select ?sujet1 ?label1 ?sujet2 ?label2 where {
?sujet1 a skos:Concept.
?sujet1 skos:related ?sujet2.
?sujet1 skos:prefLabel ?label1.
?sujet2 skos:prefLabel ?label2.} 
LIMIT 100

La 2e  ligne demande que, dans data.bnf, le « sujet1″ soit défini comme un concept au sens SKOS.
La 3e ligne indique que sujet1 et sujet2 sont liés entre eux par la relation skos:related.Les 4e et 5e lignes permettent de récupérer les labels des sujet1 et sujet2 (car sujet1 et sujet2 sont les URI des concepts, pas les formes retenues)

Résultat de cette requête :

exemple Rameau SKOS - résultats (tableau) en format HTML

Bref, SKOS fournit le vocabulaire pour définir

  • les attributs d’un concept : skos:prefLabel, skos:altLabel, skos:definition, etc.
  • les relations entre concepts
  • ce qu’est un concept lui-même : on peut ainsi chercher dans data.bnf.fr les objets de type « skos:Concept » (c’est la 2e ligne de ma requête ci-dessus), parmi tout ce que peut contenir data.bnf.fr (des personnes, par exemple)

Exemple pour les marques d’exemplaire

J’en suis donc venu à produire un fichier RDF/XML avec ce genre de lignes, qui décrit (comme c’est indiqué) la notion de « reliure aux armes » (du propriétaire ou de quelqu’un d’autre) :

(Je reviendrai dans le dernier billet prévu sur l’URL de déréférencement du vocabulaire, ici http://www.bibliopat.fr/sites/default/files/provenances/referentiel.rdf

<rdf:Description rdf:about="http://www.bibliopat.fr/sites/default/files/provenances/referentiel.rdf#3">
<rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/>
<skos:prefLabel xml:lang="fr">Reliure aux armes</skos:prefLabel>
<skos:prefLabel xml:lang="en">Armorial binding</skos:prefLabel>
<skos:prefLabel xml:lang="es">Encuadernación heráldica</skos:prefLabel>
<skos:prefLabel xml:lang="de">Einband Wappen</skos:prefLabel>
<skos:altLabel xml:lang="fr">Reliure armoriée</skos:altLabel>
<skos:altLabel xml:lang="fr">Armoiries</skos:altLabel>
<skos:altLabel xml:lang="fr">Armes</skos:altLabel>
<skos:altLabel xml:lang="en">Armorial tool</skos:altLabel>
<skos:altLabel xml:lang="en">Armorial panel</skos:altLabel>
<skos:altLabel xml:lang="fr">Blason (forme rejetée)</skos:altLabel>
<skos:altLabel xml:lang="en">Coat of arms (forme rejetée)</skos:altLabel>
<skos:altLabel xml:lang="en">Heraldry (forme rejetée)</skos:altLabel>
<skos:definition xml:lang="fr">Reliure présentant les armes d’une personne physique ou morale. Les armes peuvent présenter seulement les motifs et figures héraldiques qui les constituent ou figurer de façon plus complète en étant accompagnées d’éléments tels que couvre-chef (couronne, chapeau, tiare, heaume…), cimier, dais ou pavillon, manteau, insigne de fonction ou de dignité (crosse, bâton..), supports et tenants, collier d’ordre, devise, cri d’armes.
D'autres éléments non héraldiques peuvent également être présents en plus de ces armes : lettre unique, initiales, chiffre, monogramme, cri d’armes (phrase de ralliement propre à une personne physique ou morale, inscrite sur les armoiries et placée à la partie supérieure de la composition.),… Dans ce cas, il faut préciser « reliure aux armes et initiales… », « reliure aux armes et chiffre… », « reliure aux armes et monogramme… », « reliure aux armes et cri d’armes… ». Si l’on ne parvient pas à identifier les armes, il faut utiliser l’expression « reliure aux armes non identifiées ».</skos:definition>
<skos:inScheme rdf:resource="http://www.bibliopat.fr/sites/default/files/provenances/referentiel.rdf#Marque"/>
<skos:broader rdf:resource="http://www.bibliopat.fr/sites/default/files/provenances/referentiel.rdf#2"/>
<skos:example rdf:resource="http://www.bibliopat.fr/sites/default/files/provenances/reliure_aux_armes_1.jpg"/>
</rdf:Description>

Le code ci-dessus génère, pour l’ordinateur, un graphe de ce genre (obtenu avec le W3C RDF Validator):

servlet_4719432152438056035

Pour la suite

Le billet qui suivra sera sur mes cas de conscience concernant la manière d’utiliser SKOS, face à divers choix d’encodage. J’aurai donc l’occasion d’y remercier (mais je le fais déjà, plutôt deux fois qu’une !) @SebPeyrard pour ses explications concernant la conversion de Rameau en SKOS pour data.bnf.fr, qui m’a bien aidé.

Le suivant devrait être consacré à ceci :
(dont je reconnais volontiers que c’est du bricolage)

transformations

Créer une ontologie en SKOS – retour d’expérience (1/5)

27/02/2015

J’ai été sollicité il y a quelques mois par un groupe informel de collègues bibliothécaires pour voir comment il était possible de mettre dans un « format informatique » un vocabulaire contrôlé de marques d’exemplaires.

Ce projet a été l’occasion pour moi de m’intéresser de très près à SKOS, donc je compte vous en parler en plusieurs fois, car j’ai pu aborder pas mal d’aspects divers.

Tout d’abord, de quoi on parle

De quelque chose qui, au départ, ressemblait à ceci : une manière normalisée de décrire des marques de propriétés apparaissant sur des livres anciens (ex libris manuscrit, reliure aux armes du propriétaire, etc.).

types - institut de France

Le groupe de travail en question comptait :

  • enrichir et finaliser ce vocabulaire contrôlé, en combinant les compétences et expériences issues de plusieurs bibliothèques patrimoniales (et plusieurs vocabulaires déjà existants)
  • fournir une terminologie multilingue
  • trouver une manière de le publier en ligne qui soit également exploitable par des machines (on verra plus tard ce que ça peut impliquer)

Plan des billets à venir

(ce plan est purement indicatif, les promesses électorales n’engageant que ceux qui les écoutent)

  • Le format SKOS : petite exploration
  • SKOS : questionnements infinis sur les subdivisions de termes
  • Le processus de transformation (petits bricolages)
  • La mise en ligne finale (et ses limites, du point de vue des principes du web de données)

En attendant

En attendant les billets suivants, vous pouvez voir le résultat du travail du groupe sur la rubrique Provenance > Description et signalement de Bibliopat.fr.

Vous pourrez y voir notamment que ma contribution (dans la partie basse de la page) ne porte que sur une petite dimension du projet, qui par ailleurs a une approche plus scientifique (et non purement technique).

Nice recherche 2 conservateurs (services à la recherche inside)

19/02/2015

Recherche Conservateur – Petite prime – Photo FlicKR par Kevin Dooley – CC-BY-2.0

Ca n’apparaît pas dans Poppee (ni sur la carte de 27point7) parce que nous n’avions aucun poste vacant nous permettant de faire entrer cette information, mais le SCD de Nice a deux postes très susceptibles d’être vacants (presque déjà carrément vacants, quoi) :

  • un responsable du pôle Lettres, Arts, Sciences humaines et sociales (coordination de 3 bibliothèques – cf. l’organigramme)
  • un responsable des Services à la recherche

Je vais vous parler surtout de ce dernier, parce qu’il me concerne de plus près. Mais le premier est bien aussi !

Les services à la recherche au SCD de Nice

Il y a environ 9 mois, nous avons accompagné un laboratoire de l’Université dans un projet de recherche qui impliquait l’extraction et l’enrichissement de milliers de notices dans theses.fr et le Sudoc (et quelques autres petites choses au passage).

Nous avions déjà pas mal de compétences techniques en interne, mais encore jamais appliquées sur ce genre de projets, en dialogue avec des chercheurs, et en déployant une méthodologie spécifique.

Ce projet, finalisé pour l’essentiel, nous a permis de mettre le pied à l’étrier sur la question des services aux activités de recherche. Plusieurs collègues sont montés en compétence sur ces questions, nous avons recruté 27point7 pour 3 mois (il est chez nous en ce moment, en stage Enssib) pour nous aider à conceptualiser, formaliser, définir le calendrier et clarifier les objectifs.

Mais grosso modo nous avons un responsable des services à la recherche, chargé de :

  • accompagner les projets de recherche incluant une dimension de traitement, extraction, enrichissement, visualisation de données
    (avec pour l’assister une BAS extra, la même qui rédige ce genre de billets, et puis je donne un coup de main aussi)
  • dialoguer avec la Dirved en amont, et avec les chercheurs en direct, dès qu’il s’agit d’élaborer des plans de gestion des données (H2020 mon amour)
  • coordonner l’affichage de l’offre de services aux chercheurs pour l’ensemble du SCD : pas pour mettre en place l’ensemble des services dans l’ensemble des BU, mais pour garantir une lisibilité de cette offre (qui ne concerne pas que les données, mais inclut l’accès aux ressources, la politique d’open access et d’accompagnement à la publication, l’aménagement des espaces, etc.)

Bref, nous sommes déjà sur une bonne lancée, le collègue qui arrivera n’aura pas à construire sur du rien (et divers interlocuteurs, vice-président, doyen ou chercheur, sont très intéressés par ce service).

On ne cherche pas dans l’immédiat un expert en traitements des données : nous avons cela en stock.

En revanche il nous faut quelqu’un capable d’évoluer (il ne s’agit pas d’arriver avec des compétences, il s’agit d’être prêt à en acquérir, continuellement), familier avec les enjeux de la recherche scientifique et capable de dialoguer avec des chercheurs, ayant fait un minimum de veille sur les enjeux des humanités numériques, sachant ce qu’est une API (même s’il ne sait pas forcément la manipuler), en mesure d’identifier les possibilités qu’offrent les technologies du web de données, etc. Travail en équipe et en réseau, relations avec les chercheurs, les labos, les IGE documentation, etc., seront à assurer au quotidien.

Ce poste est au cœur des évolutions des métiers aujourd’hui, mais tout n’est pas à inventer sur place : il y a une équipe, des compétences, des objectifs, un soutien de l’établissement.

Donc pour un conservateur qui a vu émerger la question des services à la recherche, que ça intéresse et qui veut s’y mettre, c’est l’endroit idéal.

Seul défaut de ce poste : j’en suis le supérieur hiérarchique direct (département Sidoc, aka Système d ‘information documentaire). Vous devrez donc me supporter. Mais pour le reste, il est génial.

Circuit

Donc pour plus de précisions (et même entretien !) : les fiches de postes et modalités de contact sont en ligne :

Docélec : Maîtriser la variation du cours des devises ?

12/02/2015

Un échange informel avec un expert-comptable m’a appris que les sociétés avaient un outil pour maîtriser ce qui actuellement stresse les responsables de documentation électronique : la forte variation des conversions de devises, en ce moment très en défaveur de l’euro.

Argh !

En octobre 2014, nous construisions nos budgets 2015, sur la base d’un certain taux de change.
En janvier, le ratio dollar/euro devient très défavorable à l’euro. Et quand nous signons des bons de commandes, la facture en dollars de février 2015 est la même que le devis de l’automne 2014. Mais le prix en euros a considérablement gonflé.
Bon, ce sont quand même quelques milliers d’euros à trouver.

Or il existe dans le secteur privé un levier : faire intervenir les banques.

Ah ?

Une société « normale » prévoit en octobre 2014 qu’en février 2015, elle devra dépenser 15000 $, soit au cours du moment, 16500 EUR (je donne des chiffes au hasard).

Pour éviter les mauvaises surprises, cette société va voir sa banque et lui demander d’acheter des devises à terme : ils s’entendent pour qu’au 1er février, la société achètera à sa banque 15000 $, au pris de 16500 EUR. C’est un contrat.

Au 1er février, la société va voir sa banque. A cette date, 15000 $ coûteraient 18000 EUR. Mais la société s’en fiche : la banque les lui vend pour 16500 EUR, conformément au contrat d’octobre.

Bof…

Sauf que ce système, je pense, n’est pas transposable à une université : il paraît nous passons par la Banque de France, et que c’est elle qui fournit les dollars. Il semble difficile de lui acheter des devises à terme.

Alors pourquoi je publie ce billet ?

Parce que je rêve d’être contredit. Je me dis que peut-être un tel scénario a déjà envisagé par un SCD, ou un autre établissement public, et qu’ils ont trouvé la manière de résoudre le problème :

  • soit parce que les obstacles que je signale n’en sont pas, parce que je n’ai pas les bonnes informations
  • soit parce qu’un SCD peut passer par une banque
  • soit parce qu’on peut obtenir ce mécanisme de la Banque de France
  • soit parce qu’on peut demander au prestataire d’un marché (un prestataire comme Ebsco) d’employer ce mécanisme et d’aller lui-même voir sa banque, en fin d’année, pour lui annoncer l’achat de devises quelques mois plus tard
  • soit par tout autre biais qui permettrait, au final, de mieux maîtriser les problématiques d’évolution des cours des devises, entre l’élaboration d’un budget et son exécution

Mais j’avoue que je suis tristement sceptique.

I need some money

Photo FlickR par JustIn — CC-BY-NC-SA-2.0

 

Postes de BIBAS ouverts au mouvement – carte

05/02/2015

Comme chaque année en cette saison (quand j’arrive à m’y tenir en tout cas), voici la carte des postes proposés au mouvement sur Poppee pour les BAS :

Carte des postes BAS ouverts au mouvement national pour le 1er septembre 2015

carte

La carte des conservateurs devrait suivre, mais il faut que je combine les 2 listes : liste des profils de poste et liste des postes mis au mouvement (parfois certains postes sont mis au mouvement, mais il n’y a pas ou pas encore de fiche de poste disponible en ligne).

Il y a 2 postes pour Nice : on vous accueillera avec plaisir.

Aleph : mise d’un document à la navette

02/02/2015

Billet à destination des bibliothèques utilisant Aleph, et la fonction « transit ». Cette fonction sert par exemple quand un livre est rendu dans une bibliothèque du réseau autre que sa bibliothèque « habituelle » : une feuille est automatiquement imprimée à la banque de prêt, à l’enregistrement du retour, indiquant où le livre doit être transféré.
C’est juste un petit truc pratique et sympa, dans le genre qui facilite un peu la vie.

Quand il y a des piles de livres dans ce cas, ce n’est pas forcément pratique de gérer l’ensemble des fiches et de voir d’un coup d’oeil ce qui doit aller où.

Voici ce que j’ai fait :
Dans le fichier transfert-slip-00.xsl (s’il n’existe pas encore, dupliquer transfert-slip.xsl et le numéroter en -00.xsl)
Sous la ligne

<template name="section-01">

Ajout de :

<div class="BUtransit" style="position:absolute; top:100px; right:30px;"><img src="{concat('http://catalogue.unice.fr/primo_library/libweb/images/transit/', //z36-id[1], '.png')}"/></div>

Il faut évidemment remplacer l’URL racine (ici http://catalogue.unice.fr/primo_library/libweb/images/transit/) par le nom du répertoire dans lequel on aura rangé (sur un serveur web) les fichiers image (en format.png), chacun nommé par le code Aleph de bibliothèque (le champ z36-id, c’est le code de la bibliothèque de destination dans Aleph).

Les images contiennent uniquement le nom de la BU, écrit verticalement (exemple).

A l’affichage dans la fiche de transit, ça donne :

butransit

L’intérêt est qu’on peut ainsi plier en 2 la feuille (soit complètement à l’intérieur du livre, avec le nom de la BU qui dépasse, soit avec une moitié à l’extérieur)

Le nom de la BU est ainsi écrit en gros caractères dans le sens de la lecture du livre.

mabu_transit

Projet de mode d’emploi sur les humanités numériques

30/01/2015

Cela fait quelques années que ce blog s’intéresse aux traitements automatisés de données (extraction, enrichissement, exploitation), et quelques mois que je me penche sur les questions de datavisualisation (encore que si je cherche à forcer le trait, j’arrive à y raccrocher la géolocalisation des postes de conservateur ouverts au mouvement national).

Mais le concept d’humanités numériques est vraiment en train de se répandre, depuis environ 18 mois : d’abord comme concept, comme avenir, comme futur. Désormais, de plus en plus, comme objectif, comme exigence, voire comme projet.

A terme, les humanités numériques seront certainement un des outils, parmi d’autres, utilisés par les chercheurs lorsque le besoin s’en fera ressentir : au même titre que le dépouillement d’archives, l’archéologie, ou l’analyse iconographique.

Mais en attendant, nous en sommes encore à la phase des pionniers, qui expérimentent, qui rendent compte de leurs premières exploitations d’outils novateurs. Bref, on y est presque.

Et donc je me suis engagé avec beaucoup d’enthousiasme (celui du débutant ?) dans un projet éditorial dont les principes de base me plaisent énormément :

  • un mode d’emploi à destination des chercheurs et professionnels de l’info-doc, sous forme de retours d’expériences, considérations pratiques, etc.
  • une collaboration, au cœur du projet, entre des chercheurs et des bibliothécaires.

2 tomes seront produits :

  • un premier tome dirigé par Olivier Legendre, conservateur au SCD de Clermont-Ferrand, et Dana Martin, enseignan-chercheur (germaniste) dans la même université.
  • un second tome dirigé par Frédéric Clavert, historien contemporanéiste, et moi-même

Lisez l’appel à contributions

Pourquoi un livre ?

C’est vrai : pourquoi un livre (et même deux !) alors que toute la documentation pour utiliser ces outils est potentiellement disponible en ligne. La preuve : ceux qui vont contribuer ont bien réussi à se former.

Pour moi, la réponse est simple : ça permet de remettre ce livre entre les mains d’un chercheur, en une seule fois.

« Entre les mains » ou simplement sous les yeux, quand ce livre sera sur écran.

Bibliothécaires et chercheurs : regarder ensemble dans la même direction

Les chercheurs vont progressivement s’emparer (notamment grâce à ce genre de documents) des technologies et méthodologies comprises dans l’appellation d’humanités numériques (si l’expression vous interpelle, n’hésitez pas à réagir, les commentaires sont là pour ça).

A terme, les humanités (la recherche en SHS) absorberont certainement les humanités numériques (comme le web 2 s’est fondu dans le web).

Mais durant la phase de transition (quelques années, 5-10 ans ?), les professionnels de la documentation ont un rôle fondamental à jouer : nous sommes censés avoir une longueur d’avance sur la manipulation des données et métadonnées, les problématiques d’alignement de référentiels, toussa toussa. Et en orientant ces compétences sur les besoins des chercheurs (nous intéresser à des données autres que les méta), nous pouvons accélérer et faciliter le mouvement.

Exemple d'utilisation de Gephi

Sur des missions qui sont au cœur de nos compétences (le traitement de données) et sur des compétences qui sont au cœur de nos missions (être un appui aux projets de recherche de l’institution qui nous nourrit).

Alors autant vous prévenir : se former aux outils et méthodes utiles dans les humanités numériques, on doit s’y former tout de suite, pour avoir un temps d’avance, accompagner les chercheurs. Et puis dans 5 ans il faudra trouver autre chose pour justifier notre existence.

Ne vous inquiétez pas : d’ici là, il se sera passé plein de trucs. On a justement ces 5 années (pendant qu’on exploite les compétences qu’il s’agit justement d’acquérir) pour identifier les compétences qu’il faudra avoir dans 5 ans.

Vous avez eu l’occasion dans le cadre d’un projet de recherches en SHS de structurer une veille partagée, de constituer à usage interne une base de données, d’infuser dans les médias sociaux (4 ans après une série de billets sur la mort des blogs, les articles se multiplient sur l’usage des blogs académiques), d’aspirer des informations (avec ou sans « autorisation »), de manipuler des API, de constituer un corpus de tweets, d’utiliser des outils d’analyse lexicale, de produire des dendrogrammes ou de jouer avec des AFC

N’hésitez pas à nous proposer votre contribution. Avant le 6 avril.

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 130 autres abonnés