Skip to content

Journée Afnor/BnF sur l’open data du 24 juin 2016 (3/5) : DataBnF et ArchivesFrance.fr

04/07/2016

Je vous renvoie d’abord à la nature de cette restitution incomplète et subjective : j’ai déjà assez longuement décrit mon intention dans mon premier billet sur cette journée.

J’en viens à la présentation de Romain Wenz et Raphaëlle Lapôtre sur leurs projets respectifs ArchivesFrance.fr et DataBnF.

La métadonnée / monnaie

La métadonnée a été comparée par Raphaëlle au rôle joué par la monnaie (je vous renvoie à ses fonctions décrites depuis Aristote) :

  • la métadonnée permet d’évaluer la valeur d’une donnée : dans une économie de l’attention, le positionnement d’une réponse dans la liste des résultats de Google est un bon marqueur de la « valeur » de cette donnée
  • la métadonnée peut se substituer temporairement à la donnée : quand vous achetez quelque chose sur Internet, la seule chose dont vous disposez dans un premier temps est la notice descriptive.
  • La métadonnée est une représentation du réel (comme la monnaie est une représentation des richesses)
    Quand on est amené à manipuler et exploiter les métadonnées pour en tirer des informations sur les collections, on risque d’oublier que ce ne sont pas les données elles-mêmes (documents) qu’on manipule, mais leur représentation. Or les métadonnées ont leur propre histoire (l’histoire des formats de catalogage, des normes, des chantiers, etc.) distincte de l’histoire des données (historique des accroissements, problème de collecte du dépôt légal, budgets en baisse, incendie ou inondation, etc.)
    Je reviendrai sur les conséquences de la distinction représentation du réel / réel dans des billets portant sur les biais contenus dans DataBnF.

[plus de développement dans cet article déposé sur HAL]

La tension (et l’attention) du double lectorat

Un peu plus loin dans la présentation, Raphaëlle a présenté la tension à laquelle est soumise DataBnF (mais également d’autres portails dont la fonction est d’exposer les données).

On peut en effet identifier deux types d’internautes intéressés par le contenu de DataBnF :

  • le curieux, le passant : il vient chercher une information relativement pauvre et bien contextualisée.
    Par exemple, arrivé depuis Google sur la page « Madame Bovary« , il ne cherchera qu’à en connaître l’auteur, la date de première édition, et infos de base. Mais sans doute pas la liste complète des éditions (ou alors juste pour se faire une idée du succès de ce livre), et vraisemblablement pas la liste des ISBN de ces éditions.
    Il sera sans doute intéressé par des livres du même auteur, ou des études sur ce roman (contexte posé par la BnF autour de cette œuvre).
  • Le chercheur, le savant : il attendra de la BnF une information aussi riche que possible : la liste des éditions, la liste des traductions dans d’autres langues, les films ou théâtralisations réalisés à partir de Madame Bovary.
    Surtout, il voudra pouvoir extraire cette information pour choisir lui-même le contexte où il voudra la replacer.

J’aime bien pour cela l’affichage des notices dans WorldCat : il se fait en deux temps, d’abord avec quelques infos de base ; puis la possiblité de localiser un exemplaire ; puis d’autres métadonnées plus « professionnelles » (ISBN, etc.).

Je ne connais pas d’autre catalogue ayant choisi de couper en deux ses notices, comme on a coupé la BnF entre haut-de-jardin et rez-de-jardin.

Si on reprend la métaphore métadonnée / monnaie, imaginons quelqu’un qui trouve une pièce dans un champ :

  • Si c’est un promeneur, il voudra juste connaître la légende (inscription illisible à cause de l’usure), ce que signifie l’image, la date d’émission et et le nom de l’émetteur.
    Si elle est suffisamment jolie, il la mettra sur un guéridon, à côté du vase de Sèvres.
    Enfin, il voudra savoir si elle vaut cher.
  • Le chercheur, lui, voudra en savoir plus : la légende, l’image, la date d’émission, le nom de l’émetteur
    Mais aussi : savoir si cette pièce est déjà connue et référencée (et avoir la référence dans la base de données qui fait autorité), si c’est une variante des exemplaires déjà connue ;
    il voudra savoir quelle est la fréquence de cette pièce dans les collections et les trésors
    Et il choisira dans quelle « mise en série » il placera cette pièce :

    • au sein d’un trésor de fouille (ou dans la série des trouvailles isolée)
    • dans une série de monnaies portant la même image ou la même inscription
    • etc.

« Et la médaille austère
Que trouve un laboureur
Sous terre
Révèle un empereur. »

(Théophile Gautier, « L’art » dans Emaux et camées, 1852)

La confiance dans les données = la confiance dans la source

Raphaëlle Lapôtre et Romain Wenz ont également posé la question de la confiance dans les données : quand on trouve des données « brutes » (sous forme de triplets) sur Internet, comment savoir si elles sont fiables.

La réponse proposée est : le crédit que l’on accorde à l’établissement qui l’a produite.

La BnF a une exigence très forte pour les notices d’autorité, et est reconnue pour la qualité de ses notices.

Sur cette question l’intervention de Benoît Deshayes durant la table ronde de l’après-midi autour de Wikidata apportait des compléments d’information : Wikidata est un hub de référentiel, dans lequel des masses de jeux de données ont été chargées, et chaque donnée est sourcée (j’y reviendrai). Il est donc possible que deux informations soient contradictoires (2 dates de naissance, attributions à deux peintres d’un même tableau). Il reviendra à l’utilisateur de déterminer quel établissement il choisit de suivre (ou éventuellement de faire des recherches pour résoudre l’aberration, et proposer la correction à la source qui selon lui s’est trompée).

La confiance dans les données et l’infalsifiabilité

Pour moi, il y a un second problème (mais peut-être est-ce de ma part le besoin de trouver des problèmes) : comment puis-je m’assurer, autrement qu’en suivant chaque source individuellement, que l’information répliquée sur Wikidata est conforme à celle publiée sur le site d’origine ?

Si j’exploite toute une masse de données, comment réaliser un contrôle sur la conformité entre Wikidata et la source.

Une première réponse serait : par sondage (échantillon).

Mais je rêve d’une solution technique qui aille déréférencer le lien donné comme source, et actualiser ou corriger la donnée.

Je ne sais pas trop ce que ça implique. Mais le fait est que quand je clique sur un article de Wikipedia avec plein de notes de bas de page, je ne clique pas dessus pour voir que la source primaire mentionnée dit bien que ce que l’article Wikipedia lui fait dire. Mon comportement me pose problème…

4 commentaires
  1. B. Majour permalink
    05/07/2016 13:08

    Je comprends ton dilemme.

    Sauf que : aucune source Internet n’est fiable. Pouvant être réécrite en permanence, de manière involontaire ou volontaire, ça implique => aucune source Internet n’est fiable.

    On le sait quand on consulte la Wikipédia, ce qui est écrit ne l’est pas souvent/pas toujours/jamais ? par des gens autorisés et validés. C’est une information à vérifier… si nécessaire.

    Le « si nécessaire » est capital. Pour un chercheur, c’est extrêmement important de ne pas se tromper, de peur d’être ridiculisé. Mais pour celui qui cherche une information courante, ça ne pose aucun problème. Sauf si l’information est fausse, et là encore tout dépend de sa portée et de l’usage qui va en être fait.

    Donc, même si tu suis chaque source individuellement, ça ne le fera pas plus que ton jeu de données en conflit. Qui a raison, qui a tort… seul un expert pourra te répondre, voire le document d’origine dûment signé et validé.

    Tu as aussi un degré de validité de l’information suivant la personne qui la fournit.
    Un bibliothécaire sera plus fiable qu’un particulier en ce qui concerne les ISBN et autres informations sur les documents. Ce qui n’empêche pas les erreurs ! et les différences de notations suivant celui ou celle qui saisit l’info.

    Et là, on n’a pas trop le choix que celui de la « double saisie en aveugle » (deux secrétaires tapent le texte, et un logiciel compare les deux saisies pour repérer les incohérences entre les deux. En cas d’incohérence, on va au texte original.)
    C’est ce que je pratique quand je fais remonter une coquille à la BNF. Et une erreur par 1000 ou 2000 documents, c’est de l’excellent travail.

    Le problème des multiples jeux de données, c’est que si la source est corrigée, rien ne dit que Wikidata sera corrigé à son tour. Sauf s’il y a un lien permanent, ou un moissonnage régulier pour vérifier les modifications dans les données.
    Ce qui revient, de nouveau, au problème de la fiabilité sur Internet. Si la source est modifiée sans que la modification cascade sur toutes les bases de données répliquées, alors la fiabilité – hors celle de la source – est nulle.

    Exemple classique : l’épinard est riche en fer. Même si la revue scientifique publie un correctif, si les journaux grands publics ne publient pas ledit correctif, alors l’information reste fausse pour une majorité de gens. (Ce qui est encore plus critique => personne n’a été vérifier les conclusions de l’étude.)

    En clair, si tu n’as pas une colonne « dernières modifications faites », avec une date, tu peux avoir des discordances de plus en plus importantes entre les bases de données.
    Et c’est une variable qui doit être à double-sens, si Wikidata modifie une donnée, il doit signaler à la source qu’il y a une erreur potentielle.
    Parce que si moi j’utilise Wikidata et que j’y trouve une erreur, je ne vais pas chercher la source primaire de l’info, je vais demander un rectificatif à Wikidata… qui l’appliquera ou non suivant ma crédibilité ?

    C’est identique pour la Wikipédia, peut-être en pire.
    Parce qu’il y a peut-être des sources indiquées, mais rien ne dit qu’elles soient plus fiables que l’article. Et pire : comment peut-on les vérifier ?

    Avec un jeu de données, tu peux espérer vérifier la cohérence des données entre la base source et ton jeu et, de là, en tirer un certain degré de fiabilité/cohérence entre les deux. Mais avec des sources citées, il faut prendre en compte qui les a indiquées, et surtout qui les a écrites, dans quel cadre et à quelle époque ?
    Pas simple du tout la vérification.

    Mon comportement me pose problème…

    Je trouve que tu poses de très bonnes questions.😉

    Pour la solution technique, je ne vois qu’une seule chose : l’opérateur humain dans les cas conflictuels. Le seul capable de valider une donnée… ou de la laisser en conflit.
    Ce n’est pas grave de signaler une donnée en conflit, car on peut lui attribuer un degré de fiabilité « douteuse », jusqu’à trouver la preuve formelle dans un sens ou dans l’autre.
    Ce qui suppose une colonne soit « conflit », soit « fiabilité ». Dès qu’il y a conflit, la fiabilité devient nulle ou sujette à caution.
    B. Majour

  2. 05/07/2016 18:30

    @B. Majour : pour la fiabilité d’une information comme pour d’autres questions, j’ai de plus en plus tendance à penser qu’on ne doit pas écrire un algorithme qui fasse des tests et fournisse une réponse vrai/faux, mais plutôt un truc qui compte les points et les additionne.
    Par exemple si la source est un établissement « partenaire de Wikidata », ça vaut X points. Si l’information est récente (ou récemment mise à jour), ça vaut X points.
    Et on additionne.
    Je ne prétends pas le nombre de points garantisse qu’on atteigne la vérité (elle n’existe peut-être pas), mais c’est une autre manière d’essayer de résoudre ce genre de choix.
    J’ai envie d’avoir la même approche quand il s’agit d’identifier quelle édition par défaut d’une oeuvre on va mettre en avant sur data.bnf.fr, par exemple.

  3. B. Majour permalink
    06/07/2016 09:20

    Entièrement d’accord avec toi.
    Le vrai/faux est trop binaire, et comme tu le dis, ça ne permet pas de discriminer de manière plus fine. Vrai/faux, c’est je suis là, je ne suis pas là. Très insuffisant.

    J’ai attaqué la même problématique en compilant les TOP 100 ou 1000 des livres « à lire » ou les plus lus/recommandés. Sans distinction pour les sources, et je me suis aussi porté sur l’addition.
    Pas difficile de monter une requête qui compte les lignes où un titre est présent.
    Ceci dit, ça n’aide pas vraiment pour la recommandation, il y manque des thématiques ou d’autres liens plus souterrains. Autant de chemins entre les oeuvres.

    Je n’avais pas pensé à la réputation (fiabilité ?) de la source, mais ça donne des idées. ^_^
    B. Majour

Trackbacks

  1. Journée Afnor/BnF sur l’open data ...

Les commentaires sont fermés.

%d blogueurs aiment cette page :