Skip to content

Ce que data.bnf.fr m’apprend de Lully (2)

24/10/2017

Après le premier billet qui s’intéressait surtout au compositeur (quoique en l’effleurant seulement), voyons un peu les oeuvres. A ce stade, je connais le modèle de data.bnf.fr (vous aussi ?), mais pas forcément quelles propriétés (et utilisées avec quelle fréquence ? avec quelles valeurs ?) sont associées aux entités Oeuvre, Expression, Manifestation — sachant que toutes les métadonnées des notices du catalogue ne sont pas reportées dans data.bnf.fr, mais que d’autres sont ajoutées (et notamment des alignements vers d’autres bases, il faudra bien y venir).

Bref, faisons le point.

La requête suivante permet d’extraire les propriétés appliquées aux manifestations, expressions et oeuvres attribuées à Lully

DEFINE input:same-as "yes"
PREFIX rdarelationships: <http://rdvocab.info/RDARelationshipsWEMI/&gt;
PREFIX dcterms: <http://purl.org/dc/terms/&gt;
PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/&gt;
PREFIX skos: <http://www.w3.org/2004/02/skos/core#&gt;
PREFIX foaf: <http://xmlns.com/foaf/0.1/&gt;
select ?typeEntite ?propEntite (count(?propEntite) as ?OccurrencesProprietes)
where {
{?entite ?role <http://data.bnf.fr/ark:/12148/cb13898799k#about&gt;.
?entite ?propEntite ?valEntite.
?entite a ?typeEntite.}
UNION
{?expression ?role <http://data.bnf.fr/ark:/12148/cb13898799k#about&gt;.
?entite rdarelationships:manifestationExpressed ?expression.
}
}
ORDER BY ?typeEntite, ?propEntite

Ca fait pas mal de propriétés distinctes :

  • Manifestations : 24
  • Expressions : 176
    Les rôles sont répétés selon différentes ontologies, et rien qu’avec l’ontologie bnf-roles, on a 119 propriétés différentes
  • Oeuvres : 20

Les manifestations

Liste des propriétés, par ordre décroissant d’occurrences

dcterms:subject 808
dcterms:title 238

rdarelationsships:expressionManifested
238

rdf:type
238

rdfs:seeAlso
238
owl:sameAs 238

bnf-onto:FRBNF
237

dcterms:description
235
dcterms:date 234

dcterms:publisher
217

bnf-onto:firstYear
209

rdavocab:dateOfPublicationManifestation
209
rdavocab:note 190

rdavocab:placeOfPublication
173

rdavocab:publishersName
170

rdarelationships:electronicReproduction
55

bnf-onto:isbn
35

Il n’y a apparemment pas de propriété qui permette d’identifier les oeuvres spécifiquement musicales — mais en fait si : cette information peut se retrouver en indexation Sujet.

Voilà une autre requête qui récupère l’indexation Sujet associée aux documents dont Lully est l’auteur.

Et si on récupère les indexations les plus fréquentes…

sujet sujetLibelle OccurrencesSujet

http://data.bnf.fr/ark:/12148/cb11976032c
« 18e siècle »@fr 425

http://data.bnf.fr/ark:/12148/cb119329384
« Partitions »@fr 241

http://data.bnf.fr/ark:/12148/cb11976227b
« Opéras »@fr 138

http://data.bnf.fr/ark:/12148/cb146484776
« Opéras-ballets »@fr 118

http://data.bnf.fr/ark:/12148/cb12215119w
« Parties »@fr 77

http://data.bnf.fr/ark:/12148/cb13601444k
« Arrangements »@fr 62

http://data.bnf.fr/ark:/12148/cb12215082c
« Extraits »@fr 57

http://data.bnf.fr/ark:/12148/cb11976232x
« Ouvrages avant 1800″@fr 44

http://data.bnf.fr/ark:/12148/cb124905429
« Partitions et parties »@fr 43

http://data.bnf.fr/ark:/12148/cb11960516v
« Solfège »@fr 37

http://data.bnf.fr/ark:/12148/cb12111871s
« Clavecin, Musique de »@fr 35

http://data.bnf.fr/ark:/12148/cb12490452b
« Réductions chant et piano »@fr 32

http://data.bnf.fr/ark:/12148/cb121516267
« Motets »@fr 30

http://data.bnf.fr/ark:/12148/cb11975995h
« 20e siècle »@fr 28

http://data.bnf.fr/ark:/12148/cb11975999w
« 19e siècle »@fr 27

http://data.bnf.fr/ark:/12148/cb122150931
« Airs d’opéra »@fr 26

http://data.bnf.fr/ark:/12148/cb119604900
« Piano, Musique de »@fr 20

http://data.bnf.fr/ark:/12148/cb11948111j
« Harmonie (musique) »@fr 16

http://data.bnf.fr/ark:/12148/cb11975998j
« 17e siècle »@fr 15

http://data.bnf.fr/ark:/12148/cb133183660
« Musique »@fr 14

… on voit bien que ce n’est justement pas une indexation : c’est une catégorisation de genre ou de forme. Dans certains cas, on peut même identifier qu’il s’agit de partitions, et non d’enregistrements.

En revanche l’inverse n’est pas possible : il n’y a pas d’information Ceci est un enregistrement sonore dans l’indexation.  Passons justement aux expressions.

Les expressions

La propriété dcterms:type est celle qui nous intéresse pour ça : concernant les documents liés à Lully, elle peut prendre 4 valeurs (codées selon le référentiel dcmitype) :

  • Text
  • Sound
  • MovingImage
  • InteractiveResource

Et selon la volumétrie suivante (l’information de décennie est extraite de la date, elle-même liée non à l’expression mais à la manifestation)

Les oeuvres

Presque toutes les oeuvres de Lully recensées dans data.bnf.fr sont typées, avec une propriété <http://musicontology.com/genre&gt;

Ce qui nous donne la liste des genres musicaux suivants

On peut donc à présent croiser tout ça

(toujours en se limitant à Lully)

Evidemment, on reste dans tous ces cas tributaire de la manière dont les données d’origine ont été renseignées : par exemple, si la mention de « partition » a été indiquée en zone 258*, mais pas en indexation sujet (subdivision « genre/forme »), on est cuit…

Une petite astuce pour finir (au cas où)

Si jamais vous ne savez pas comment facilement récupérer la requête Sparql qui se « cache » dans l’URL des liens auxquels je renvoie : il vous suffit de copier-coller cette URL sur le site URL Decoder/Encoder.

Pour la fois suivante, on parlera de croisement avec d’autres API (élargissement à d’autres sources). Ou alors d’identifier les compositeurs ou musiciens dans data.bnf.fr (élargissement à d’autres personnes).

———-

*Si vous vous demandez à quoi sert la zone 258 : vous pouvez utiliser cette page. C’est un pense-bête. Vous n’aurez pas accès à la documentation détaillée (bouton « Ouvrir la page »), mais en saisissant le nom d’une zone ou d’une sous-zone Intermarc ça vous fournit son libellé (et réciproquement). C’est déjà pas mal…
Cela dit, concernant spécifiquement la 258, vous avez peut-être raté ce billet 🙂

 

Publicités

Du FRBNF à l’ARK

18/10/2017

Cet article est déjà paru sur le site de la Transition bibliographique. Mais je le remets sur mon propre blog, dans sa version pré-print (avant reprises éditoriales très-pertinentes des collègues), d’abord pour archivage personnel, ensuite parce que j’ai d’autres billets en tête qui s’appuient là-dessus, et qui ne trouveront pas forcément leur place sur Transition-bibliographique.fr

Depuis de nombreuses années la BnF diffuse ses notices bibliographiques en les identifiant d’un numéro dit « FRBNF ». Mais de plus en plus, elle est amenée à faire valoir ses identifiants « ARK ». La différence n’est en réalité absolument pas anecdotique.

A quoi sert un FRBNF ?

Pourquoi conserve-t-on le numéro de notice BnF dans un catalogue local (ou celui du Sudoc) ? Par traçabilité, pour montrer l’origine de la notice et indiquer qu’elle vient de la BnF (avec reprises et corrections postérieures ou pas, le format Marc ne permet pas de le préciser).

Le numéro FRBNF est construit avec le numéro d’identifiant interne de la notice dans la base de données, sur 8 chiffres, et préfixé de « FRNBF ». Il a parfois un suffixe (clé de contrôle) partagé ou pas, ce qui peut rendre sa réutilisation un peu complexe :

« Depuis, 2004, la structure des numéros de notice BnF est la suivante : « FRBNF » suivie d’un numéro à 9 caractères (le dernier caractère pouvant être un « X »).
Selon les outils proposés par la BnF en consultation, le dernier caractère peut ne pas être affiché (structure FRBNF + 8 caractères).
En ce cas, saisir ce numéro en $z »

Il sert à citer la source de la notice et expliquer d’où elle vient. C’est tout.

Éventuellement, si vous avez un FRBNF dans votre catalogue, vous pouvez vous en servir en cas de doute pour retrouver cette même notice dans le catalogue de la BnF. Mais celle-ci peut entre-temps avoir été fusionnée avec une autre, et donc avoir changé de numéro. Le FRBNF dont on a connaissance dans la notice dérivée correspond alors à la zone « ancien numéro de notice » dans la nouvelle notice BnF.

Coexistent dans le catalogue de la BnF des anciens numéros qui sont la même séquence de chiffres que des numéros actuels : tout simplement parce que par le passé plusieurs logiciels ont coexisté, chacun attribuant sa propre séquence d’identifiants, indépendamment du fait que ceux-ci existent déjà par ailleurs ou non dans la base d’à côté. Et depuis plusieurs années toutes les bases ont fusionné au sein du « Catalogue général » que vous pouvez admirer aujourd’hui.

Ainsi dans le Sudoc la notice Numismatique médiévale, par Marc Bompaire et Françoise Dumas (PPN 051702096) indique en 035

035 $a frBN025648688

Mais dans le catalogue de la BnF cette notice a désormais le numéro 371168816 (FRBNF), et non 025648688. C’est en zone 917 (ancien numéro système) qu’on trouve :

917 .. $o OPL $a 025648688

Je le redis, le FRBNF est donc une simple mention pour sourcer la notice.

A quoi sert un ARK ?

A priori, pareil : dans le catalogue de la BnF, c’est un identifiant permettant de désigner une notice bibliographique ou d’autorité, avec un préfixe, un numéro système, et un suffixe.

Par exemple pour cette même notice BnF Numismatique médiévale , on a :

Quelle différence ?

D’abord, il est possible de préfixer l’ARK pour en faire une URL : en ajoutant http://catalogue.bnf.fr/, ou http://gallica.bnf.fr/, http://data.bnf.fr/, ou http://ark.bnf.fr/, on accède (via une redirection préalable ou non) à une représentation de la ressource (soit la notice bibliographique, soit le document numérisé). L’ARK permet facilement de construire une URL déréférençable — donc d’avoir une URI selon les exigences du web sémantique.

Par ailleurs, la BnF a une politique de pérennisation de ces ARK, et pas de ses FRBNF. Cela signifie que si une notice disparaît (par exemple en fusionnant avec une autre, avec laquelle elle doublonnait), son FRBNF ne vous permet pas d’accéder à la nouvelle notice. Alors que l’ARK, si.

Par exemple, la notice 30665273 (ark:/12148/cb30665273m) a été fusionnée avec la 43243944 (ark:/12148/cb43243944w)

Pourtant si vous ouvrez l’URL http://catalogue.bnf.fr/ark:/12148/cb30665273m, vous tombez bien sur cette  notice, redirigée par le serveur de la BnF.

Par ailleurs, votre FRBNF peut très bien correspondre à un numéro de notice toujours existant et à un ancien numéro de notice fusionnée :

Par exemple le frBN000000331 qu’on retrouve dans la notice d’autorité IdRef 026357585 semble correspond à un numéro de notice système 00000033 présent comme ancien numéro de notice dans 24 notices d’autorité. Sauf qu’en réalité il s’agit d’un ancien numéro système sur 9 chiffres  : 000000331, présent quant à lui comme ancien numéro dans 2 notices d’autorité.

En revanche dans la notice Sudoc 026359405 (qui n’est pas une super notice, mais vu qu’elle vient de la BnF, je ne vais rien dire !) on trouve le FRBNF118622701. La recherche sur 9 chiffres ne renvoie rien — mais en cherchant 11862270 on retombe bien sur la même notice (c’est son numéro de notice actuel, ark:/12148/cb118622704)

Je vous ai perdu avec tous ces exemples ? C’est normal : ça prouve qu’on s’y perd rapidement… Moralité : mieux vaut un ARK si on veut pouvoir ré-accéder un jour à la notice source.

Quelles conséquences dans le cadre de la Transition bibliographique ?

Le catalogue de la BnF, comme celui du réseau Sudoc, sont en phase de transition. Ils vont progressivement contenir un plus grand nombre de notices d’oeuvres (calculées automatiquement ou non), et une plus grande proportion de notices bibliographiques liées à ces notices d’oeuvres.

A terme (1 an ? 2 ans ? 4 ans ?) il deviendra vraiment intéressant pour les bibliothèques de lecture publique qui ont un jour dérivé des notices BnF, de récupérer l’ensemble des mises à jour, notamment ces liens depuis les notices biblio vers les oeuvres — et les oeuvres elles-mêmes, bien sûr.

Or ces notices dérivées ne contiennent, la plupart du temps, qu’un FRBNF et pas d’ARK. Dans un grand nombre de cas il sera possible d’isoler les 8 premiers caractères de ce FRBNF pour reprendre la notice biblio actuelle correspondant à ce numéro. Et le plus souvent ça fonctionnera. Mais dans un certain nombre de cas ces notices auront disparu. Pire : la notice que vous aviez dérivée du catalogue aura disparu (fusionnée), vous voudrez la rechercher (sans le préfixe « FRBNF ») dans le catalogue, et constaterez peut-être alors que ce numéro correspond à un autre tout document.

Comment réactualiser ses notices en masse ?

La récupération des notices BnF, dans quelques mois ou quelques années, aura donc un préalable nécessaire : la récupération des ARK pour chaque notice.

Ce travail-là fera l’objet de billets ultérieurs, soit sur ce blog soit ailleurs.

Ce que data.bnf.fr m’apprend de Lully (1)

17/10/2017

Premier petit échauffement en vue du hackathon BnF 2017, dont le thème (non obligatoire) cette année est la musique.

Sans surprise, je vais commencer sur Lully (l’usurpateur de mon nom).
Je ne sais pas si vous vous souvenez, mais on est dans une phase intermédiaire d’évolution du modèle de data.bnf.fr, avec 2 URI pour désigner une même personne : son identifiant #foaf:Person et son identifiant #about. Les 2 sont déclarées équivalente (reliées par un owl:sameAs). Je ne vous refais pas toute l’explication.

Pour ne pas avoir à gérer les deux URI, il faut utiliser une ligne dans le Sparql Endpoint qui va déclencher des inférences : toute propriété concernant une des deux URI sera reportée également sur l’autre.

Les oeuvres de Lully

Une requête simple pour sortir toutes les oeuvres de Lully, avec :

  • son rôle (limité par la dernière ligne du code, au vocabulaire détaillé des rôles utilisé à la BnF, et éviter de récupérer les simples dcterms:creator ou dcterms:contributor)
  • la date de publication (qui est un critère obligatoire dans cette requête : les documents non datés ne vont donc pas sortir)
  • le titre
  • le lien à l’oeuvre (si elle a été créée)

Le noeud principal de la requête est la ligne rouge : les expressions où Lully a une mention de responsabilité (auteur, compositeur, etc.)

DEFINE input:same-as "yes"
PREFIX rdarelationships: <http://rdvocab.info/RDARelationshipsWEMI/&gt;
PREFIX dcterms: <http://purl.org/dc/terms/&gt;
PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/&gt;
PREFIX skos: <http://www.w3.org/2004/02/skos/core#&gt;
select DISTINCT * where {
?URIexpression ?URIrole <http://data.bnf.fr/ark:/12148/cb13896861p#foaf:Person&gt;.

?URIrole skos:prefLabel ?libelleRole.
?URIexpression dcterms:type ?typeExpression.
?URImanifestation rdarelationships:expressionManifested ?URIexpression.
?URImanifestation dcterms:title ?titreManif.
?URImanifestation bnf-onto:firstYear ?dateManifestation.
OPTIONAL
{?URImanifestation rdarelationships:workManifested ?URIoeuvre.
?URIoeuvre dcterms:title ?titreOeuvre.
?URIoeuvre bnf-onto:firstYear ?dateCreationOeuvre.}
?URIrole skos:inScheme <http://data.bnf.fr/vocabulary/roles&gt;..
}

On pourrait traiter ça directement soit avec des requêtes successives, soit avec un programme Python — mais je vais être à la fois paresseux et peu pragmatique : copions-collons ce tableau dans Excel.

Ca fait 912 lignes. Logiquement, il devrait y avoir une ligne par manifestation, mais en fait non :

  • il y a les manifestations qui sont des agrégats (bienvenus dans le monde de la musique)
    En fait, ça veut tout simplement dire qu’une publication (partition ou enregistrement) contient plusieurs oeuvres.
    La même manifestation apparaît donc autant de fois qu’il y a d’oeuvres distinctes dans les colonnes URIOeuvre, ?titreOeuvre et ?dateCreationOeuvre)
  • il y a les oeuvres que Lully a à la fois composées (musique) et écrites (texte). Il est alors mentionné à 2 reprises (exemple)

Bon, Lully est surtout compositeur (sans surprise)

Compositeur 532
Auteur ou responsable intellectuel 367
Ancien possesseur 6
Auteur du texte 6
Arrangeur 1

Objectivement, on pouvait s’en rendre compte directement sur la page consacrée à Lully (comme quoi l’interface est bien faite)

D’ailleurs la volumétrie est sensiblement supérieure à mon extraction. Si on ne veut pas récupérer les dates (ligne ?URImanifestation bnf-onto:firstYear ?dateManifestation}, on augmente un peu le nombre récupéré (on passe de 910 à 1200 documents), mais ça reste loin des près de 3000 ressources.

Et si on extrait juste du Sparql Endpoint la liste des triplets ?Ressource ?role <Lully> (où le ?role est limité aux codes fonction précis du référentiel détaillé), on ne monte qu’à 1500 réponses (incluant les oeuvres et les spectacles). A noter que la page data.bnf.fr aditionne les 1500 documents eux-mêmes aux 160 oeuvres. Mais on n’atteint pas les 3000. Et quand on utilise la fonction d’export en pied de page, le fichier de triplets contient moins de 1600 ressources pour lesquelles Lully a une mention de responsabilité.

Les collaborateurs

Lully n’a pas composé tout seul : cette page de data.bnf.fr identifie les autres mentions de responsabilité sur les ressources où Lully a joué un rôle.

Ce qui peut impliquer plein de situations différentes, mais essentiellement :

  • une pièce dont Lully est le compositeur et quelqu’un d’autre le metteur en scène ou l’auteur du livret
  • la mention de Lully comme auteur et de son interprète (dans le cas d’enregistrements)
  • une ressource qui contient à la fois des oeuvres de Lully, de Charpentier, de Bach ou de Mozart

Il faudrait donc débroussailler tout ça ensuite en fonction des rôles (et sans doute des dates de vie et de mort). Toutes les situations sont d’ailleurs intéressantes selon ce qu’on veut en faire.

Un petit programme permet d’extraire cette liste, et pour chacun des autres auteurs, d’identifier aussi les liens entre eux. Un paramètre en entrée : l’identifiant ARK de l’auteur.
(petit rappel : je ne suis pas développeur, le code est certainement très moche — mais bon, ça marche. Je ne ferai pas ce rappel à chaque fois)

Pour Lully, une fois le fichier résultat chargé dans Gephi, ça donne un graphe assez énorme (2164 « collaborateurs » pour Lully, et plusieurs dizaines de milliers de liens entre tous ces gens-là)

Et avec les noms (mais est-ce nécessaire, finalement ?c’est si beau sans)

Ce qui est amusant, c’est qu’au centre du graphe, on ne trouve pas Lully lui-même (pourtant à l’origine de l’extraction) mais Mehul (compositeur fin XVIIIe-XIXe siècle), Charles Malherbe (musicologue fin XIXe-début XXe) et André Gill (caricaturiste XIXe siècle). Je vous laisse méditer là-dessus…

Le succès éditorial

Un rapide petit décompte par décennie du nombre de document édités, sur ce corpus de 912 ressources :

(je constate au passage que mon script écrit il y a quelques mois permettant d’obtenir rapidement ce genre de graphiques bloque complètement, il faudra que je le refasse. Je constate aussi qu’il est écrit n’importe comment. C’est une bonne nouvelle, ça veut dire que je progresse)

————————————————————————————————————–

Je vais en rester là pour l’instant : les ressources, les rôles, les collaborations.

J’explorerai plus tard la question des documents manquants (c’est-à-dire la différence de volumétrie entre la page data.bnf.fr et ma requête Sparql), mais aussi les types de documents musicaux, ainsi que la question des spectacles. J’aimerais bien avoir le temps de voir deux ressources extérieures aussi :

  • le SRU de la BnF, dont l’ouverture publique est imminente
  • l’articulation avec d’autres bases de données et ce qu’on peut en tirer, soit via nos alignements (déclaration d’équivalences entre nos identifiants et ceux de VIAF, wikidata, ISNI, etc.), soit par reconnaissance de chaînes de caractères pour interroger des API de type Deezer (basculer d’un morceau entendu quelque part à sa partition, par exemple ?).

Cas d’utilisation d’Open Refine – exemple 1/3 : nettoyer une liste de valeurs

10/10/2017

Ce blog est un peu en dormance, je vais essayer de le réactiver un peu. Disons que je n’ai pas encore trouvé (après déjà une année passée à Paris…) où je pouvais caler le moment « bloguer » dans mon rythme hebdomadaire.

Voici très rapidement un exemple d’utilisation d’Open Refine. Ce logiciel, dont j’ai déjà parlé à plusieurs reprises, est installé sur mon poste mais je n’en fais usage qu’assez épisodiquement — quand j’identifie qu’il peut m’être plus utile qu’Excel. Je prévois donc de présenter 3 exemples d’utilisations d’Open Refine — si ça peut vous donner d’autres idées.

Petite digression d’abord sur ce que je fais depuis un an à la BnF : je contribue, sur les notices déjà existantes, à l’évolution des données dans le contexte de la Transition bibliographique, et plus généralement à l’amélioration des données du catalogue — donc en gros, dès qu’on peut ajouter un peu de traitement de données, d’automatisations, j’aime bien mettre mon grain de sel. Un des gros projets en cours, c’est donc se rapprocher par étapes et à-coups du modèle FRBR (bon, LRM en fait maintenant, mais on verra ça une autre fois). Ce projet se décompose en un certain nombre de chantiers, selon la nature des documents, la nature des modifications, la nature des informations concernées, etc. La journée Systèmes & Données du 14 novembre devrait être l’occasion d’en évoquer certains.

Et il y a d’autres chantiers, liés à l’amélioration des données du catalogue « en général ». Parmi ceux-ci, je vais en évoquer un juste parce qu’il m’a donné l’occasion d’utiliser Open Refine (le chantier en question n’est pas terminé, d’ailleurs).

Le corpus est un lot de 34000 partitions : partie pour violon, partition pour chef d’orchestre, adaptation pour piano, etc. Le type de partition est précisé dans une zone en texte libre (la zone Intermarc 258$f, en l’occurrence).

Or il existe en parallèle une zone codée, permettant de décrire un type de partition : cette valeur permettrait ensuite de générer une facette, ou se retrouverait exploitable dans data.bnf.fr, etc.

referentiel type partition

Il faut donc l’alimenter à partir des informations textuelles.

Partir de 1500 valeurs distinctes pour arriver à 11.

Pour le logiciel Open Refine, il s’agit de clusteriser des valeurs (c’est-à-dire regrouper des chaînes de caractères distinctes dans un même groupe, auquel on affecte un même code). Ce n’est finalement pas différent de ce qu’a expliqué l’Abes sur son blog en 2014 à propos de la zone 200$bTexte imprimé. C’est également l’usage qui a été fait de ce même logiciel au SCD de Nice pour identifier les disciplines des thèses portant sur l’Afrique (la « discipline » dans une notice de thèse est une zone en texte libre).

Concernant ce chantier sur les partitions, voici les étapes suivies :

  1. extraction du catalogue d’un corpus de notices concernées, avec la zone textuelle source
  2. chargement dans Open Refine
  3. ajout d’une colonne « zone 258$f nettoyée » dupliquant la zone 258$f (ça permet de préserver la colonne contenant la valeur initiale : pour comparaison si les traitements successifs, trop violents, rendent le résultat final difficile à comprendre)
  4. Réalisation de plusieurs opérations de nettoyage et regroupement sur cette colonne, pour réduire le nombre de valeurs distinctes :
    1. rapprochements automatiques entre valeurs un peu différentes, en testant plusieurs algorithmes de clusterisation
      Le premier, le plus restrictif, peut être validé sans trop regarder : il rapproche les variantes d’accents, de majuscules et de ponctuation
      (et on passe en 2 secondes de 1500 valeurs à 1000)
      merge and recluster
    2. Utilisation des facettes, de Text Filter, pour identifier toutes les chaînes de caractère contenant par exemple « choeur », ou « voix », etc. pour attribuer une valeur commune à toutes ces lignes

On réexporte ensuite le résultat, sous forme d’un tableau à 2 colonnes :

  • Numéro de notice
  • Nouvelle valeur de la 009 pos.3

export_table

Fin du chantier
(restera évidemment à charger les données dans le catalogue, mais c’est pas moi qui m’en occupons)

Expérimenter les humanités numériques

02/10/2017
Ce livre vient de sortir, presque deux ans après l’appel à contribution
(dit comme ça, ça me semble incroyablement long, et pourtant je n’ai pas eu l’impression qu’il y ait eu des temps morts : seulement une succession de phases).
J’en profite tout de suite pour remercier très solennellement les trois autres coordinateurs pour m’avoir invité à contribuer à cette naissance, et les auteurs qui ont produit ce résultat.
Ce livre est un recueil de chapitres qui présentent une succession de retours d’expérience, que nous nous sommes efforcés d’organiser pour leur donner une cohérence dans le discours global que nous voulions tenir.
L’ensemble de l’ouvrage est disponible en libre accès sur le site des Presses Universitaires de Montréal, collection Parcours numériques. Certains chapitres ne sont même accessibles qu’en ligne pour des raisons purement éditoriales (longueur maximale d’un volume), et non liées à la qualité des textes.
La version papier est diffusée en parallèle (ainsi que les fichiers ePub et PDF).

Quelles « humanités numériques » ?

Au moment où ce projet commençait, il y avait pas mal de débats sur le sens à donner à cette expression. On voit moins souvent ces échanges à présent. C’est un débat que nous n’avons pas cherché à résoudre avec ce livre, estimant que notre rôle était ailleurs, sur les enjeux d’appropriation des outils numériques et des possibilités ouvertes, ou pour l’instant juste entrouvertes.
Les retours d’expérience permettent de rendre compte de l’utilisation d’un outil de travail qui peut intervenir à divers niveaux dans la conduite d’un projet scientifique, mais que nous n’avons pas fini de nous approprier.
Ce qui me semble ressortir particulièrement de la lecture des différents chapitres (puisque, n’en ayant rédigé aucun, en revanche je les ai beaucoup lus !) :
  • la diversité des projets : entre les chercheurs un peu seuls qui sont amenés à bricoler, et grands projets bénéficiant de financement ANR ou européens
  • le numérique intervenant selon les cas comme :
    • outil facilitateur
    • outil qui apparaît en cours de projet (avec évolution ou transformation du projet)
    • outil comme objectif du projet
  • l’intérêt de voir ainsi la science en train de se faire :
    pour moi, ce livre est pertinent aujourd’hui, pour rendre compte aux autres chercheurs (et plus largement aux citoyens) de ce à quoi peut ressembler la science aujourd’hui.
    Mais il le sera certainement, différemment, dans 10 ans (ou au-delà), pour être confronté à ce que sera l’usage du numérique à ce moment-là.
  • la complémentarité des métiers :
    les métiers de la documentation (bibliothèques incluses) sont censés être malmenés par l’irruption d’Internet, la facilité d’accès aux ressources, etc.
    Il est vrai que de nombreuses activités légitimes il y a 20 ans n’ont plus vraiment de pertinence. Mais c’est ce qui est fascinant aujourd’hui : voir se reconstruire la collaboration entre deux cultures professionnels, en revenir à ce qui fait le coeur et le sens de notre métier (chacun, bibliothécaire et chercheur) et renouveler les manières de travailler ensemble.

Making-of

La manière dont la coordination de l’ouvrage a été conduite aurait mérité un chapitre. Non pas parce que nous avons été particulièrement innovants (voire disruptifs !) ou efficace, mais parce que je ne sais pas comment font les autres : donc donner à lire la conception d’un ouvrage sur les humanités numériques, c’est aussi donner à voir la science en train de se faire, prendre le temps de décrire aussi cette activité-là.
Car nous avons tout fait à distance, avec des points plus ou moins réguliers mais surtout une grande diversité d’outils de communication et de travail collaboratif : ont été sollicités Skype, un pad, Google Drive, PBworks (qui propose une plate-forme de wiki). Pour la phase de relectures on est allé fureter du côté de SciencesConf (mais finalement non). Et les mails, bien sûr.
On peut en conclure qu’il nous a manqué un outil centralisateur, permettant de gérer un workflow de relecture et validations, d’échanges avec les auteurs et entre nous (puis avec l’éditeur), intégrer la question des financements.
Mais finalement le côté tâtonnant (non, pas « foutraque »), expérimental, est révélateur, et intéressant aussi.
Bref, c’était une expérience en soi, que j’ai adoré vivre.
Si en plus la suite nous apprend que nous avons eu raison de croire que ça en intéresserait d’autres, peut-être pourrons-nous envisager un tome 2 ?

Table des matières

    • Introduction, par Frédéric Clavert, Olivier Legendre, Dana Martin

Les outils personnels

L’outillage collectif

La gestion de projet

blockchain, intelligence artificielle et fonds spéculatifs

13/07/2017

Je ne vous ai finalement pas beaucoup parlé de la blockchain, et je n’ai pas suivi les innovations autour de cette technologie autant que je l’aurais souhaité (de manière générale, j’avoue que je blogue moins et je veille moins depuis quelques mois). Pour ceux qui débutent et en voudraient une vision claire, je vous recommande vivement cet article Minimum viable block chain, que j’ai renoncé à traduire en français, mais ce n’est pas bien car il en vaut la peine : il reprend l’explication des mécanismes traditionnels d’un échange marchand, et comment le dispositif de blockchain, avec ses clés publiques et privées, vient se substituer au rôle de l’Etat (ou plutôt vient rendre inutile le rôle d’un Etat) comme garant de la pérennité de la valeur d’une monnaie fiduciaire. Éclairant !

Parmi les sujets que cet article aborde, il y a les smart contracts : les contrats intelligents. Le principe est le suivant : vous développez un programme, et le publiez dans une blockchain, de manière à ce qu’il soit in-modifiable (et tout le monde peut le vérifier). Ce programme prévoit que si une personne, correspondant à certains critères (ce peut être une personne identifiée, une société prestataire, ou n’importe qui — ça va dépendre de qui accède aux conditions du contrat) réalise une action que le programme peut constater, celui-ci active une récompense (ou tout autre type de conséquence).

Un récent article donne l’exemple de smarts contracts inscrits dans une blockchain appliqués au monde de la prévision des cours en bourse : si quelqu’un prévoit une évolution, mise de l’argent pour la société qui a développé ce contrat, et que la société y gagne des sous, elle rémunère le « quelqu’un ». S’il s’est planté, il perd ses jetons.

C’est un peu plus subtil que ça, évidemment, mais le mieux est de lire l’article.

Ce que cet article nous apprend par ailleurs du monde de la finance et de la spéculation, je ne gloserai pas là-dessus : je n’ai aucune des compétences nécessaires pour avoir une opinion légitime, donc la mienne ne vaut pas plus que celle que vous entendriez au café du coin, et vaut certainement moins que la vôtre.

En revanche je trouve que ce genre d’exemple permet de se projeter davantage dans un univers de travail collaboratif, où on pourrait récompenser les participants : inciter à tagger des ressources, à reprendre un OCR, etc.

On en est encore très loin, mais je trouve la perspective intéressante. Deux grandes marges de progression :

  • envisager sur quels genre de services, et avec quels genres de « récompenses », cela pourrait être envisagé
  • s’approprier les outils permettant de créer un smart contract

« Vers de nouveaux catalogues » : quelles questions, quelles réponses ?

02/05/2017

J’ai fini récemment Vers de nouveaux catalogues, paru aux Editions du Cercle de la Librairie sous la coordination d’Emmanuelle Bermès (l’introduction est en ligne sur Figoblog).

J’avoue avoir eu un peu de mal à me le procurer : il y avait une file d’attente pour le lire au service de documentation professionnelle interne de la BnF !

L’ouvrage veut rendre compte, à travers l’ensemble de ses contributions (table des matières), de ce que sera l’avenir des catalogues. Le procédé est le suivant : chaque contributeur essaie de rendre compte, à travers un retour d’expérience précis illustrant le propos (la plateforme data.bnf.fr, la FRBRisation des données, le projet SGBm du réseau Sudoc, le futur data lake de l’INA, etc.), de lignes de fond qui permettent d’anticiper ce que seront les catalogues demain.

A un ou deux articles près, l’équilibre, assez complexe à tenir, entre retour pratique et propos plus théorique, est très bien tenu par leurs auteurs. Les exemples donnés sont concrets, mais le propos ne s’en tient pas à dérouler simplement l’histoire : il en tire des conclusions, dégage des grandes logiques.

Parmi celles-ci : les catalogues seront (de plus en plus) alimentés par des flux, les informations seront enrichies, les notices ne seront qu’une manière de visualiser l’information (article de Raphaëlle Lapôtre sur la datavisualisation, et de Gautier Poupeau sur l’éclatement des notices en données), leur gestion sera de plus en plus collaborative — la description stricte des documents ne sera finalement qu’un type de contenu parmi d’autres, de ce que les bibliothèques diffuseront à leurs internautes, après avoir agrégé et produit des informations sur leurs ressources. L’ouvrage est l’occasion d’avoir aussi une bonne synthèse sur l’état d’avancement de la transition bibliographique : c’est le bon moment, car de plus en plus de bibliothèques se demandent comment, concrètement, y participer1.

Participer à cette évolution, c’est précisément à quoi ce livre prépare : en rendant compte des enjeux pour les prochaines années, à partir d’observations les plus récentes.

Il serait formidable dès que possible y adjoindre un tome 2 ! En effet, en dépit de tout l’intérêt que j’ai porté à chacun des articles, j’en suis sorti frustré par l’absence de contribution qui rendrait compte des nouveaux usages chez nos publics. En effet, si nos catalogues évoluent, c’est aussi pour s’adapter à l’évolution des pratiques et des attentes des lecteurs, chercheurs, réutilisateurs de nos données : l’utilisation quotidienne de Google crée un horizon d’attente, de même que la politique de l’open data (chapitre de Romain Wenz).
Les bibliothèques s’efforcent de suivre pour faire évoluer à la fois leurs données et leurs interfaces — mais concrètement, aujourd’hui, quelles tendances observe-t-on ? Quand c’est pour consulter les documents, quelles stratégies les internautes utilisent-ils ? Quand ils en font un autre usage (lequel ?), comment s’en servent-ils ? Quelle porosité dans les pratiques de navigation entre Amazon, un catalogue de bibliothèque, une plateforme illégale de téléchargement de fichiers ePub ?
Je serais bien incapable d’en dire quoi que ce soit — mais justement, je crains que si beaucoup d’entre nous ont des intuitions là-dessus, il serait utile d’en avoir connaissance d’une manière plus objective, plus statistique, plus méthodique.
D’autant plus lors d’une phase de transition, pour s’assurer que les projections envisagées il y a quelques années sont toujours en phase avec les pratiques constatées aujourd’hui.

Une autre interrogation implicite qu’induit la lecture de l’ouvrage : comment favoriser l’acculturation et l’appropriation de ces problématiques par la profession ? Le livre y répond ainsi : « Lis-moi ! » Le conseil est bon.

———————————————————

1. J’y reviendrai sans doute plusieurs fois cette année