A titre de curiosité (2) : comparaison catalogue – autres bases de livres

Comparaison Nouvelles acquisition du SCD / Google Book Search

Dans la perspective de définir des sources pertinentes comme

  1. base bibliographique pour les nouvelles acquisitions (ne pas avoir à resaisir une notice dans notre module Acquisitions, mais l’importer directement)
  2. source pour des contenus enrichis, tant vis-à-vis des nouvelles acquisitions que de l’ensemble du catalogue

j’essaie d’utiliser les API (ou tout autres méthodes) de différents sites pour voir le taux de recoupement, et donc les services que ces bases pourraient nous rendre.

C’est promis, j’essaierai de définir ce qu’est une “API” rapidement, car je ne suis pas certain que le concept soit limpide pour tous.

Il faut donc voir :

  • pour commander les acquisitions, si la notice est dans la base étudiée
  • pour afficher les nouveautés, si la couverture est dans la base étudiée
  • pour enrichir notre catalogue, si la base étudiée propose des couvertures, des résumés, des tables des matières, l’accès au texte intégral, des tags, des commentaires, des liens vers d’autres éditions du même ouvrage (WorldCat et LibraryThing proposent ce genre de choses. C’est la philosophie FRBR), etc. — et avec quel taux de recouvrement avec notre catalogue

Pour Google Book Search, j’ai pour l’instant uniquement regardé si c’était un outil pertinent pour nos acquisitions, tant pour importer une notice à la commande que pour afficher la page de couverture sur notre site.

La démarche est la même qu’ici (présence dans Amazon de nos notices de nouvelles acquisitions — avec un échantillon de 46 titres). J’obtiens sur Google Book Search :

  • 76 % de notices présentes
  • 15 % de couvertures

Sur ce dernier chiffre (15%) : GBS n’affiche de page de couverture que lorsqu’il peut proposer un “affichage d’extraits” ou un aperçu limité”. Quand il n’y a “aucun aperçu disponible“, il n’y a pas de couverture non plus — alors que la couverture du même livre est bien disponible sur Amazon.

Par ailleurs, pour toutes les notices manquantes chez Google Books, elles étaient avec couverture chez Amazon.

Petites réflexions

J’ai donc comparé GBS et Amazon pour une cinquantaine de titres très récents. Amazon est plus complet pour les notices bibliographiques, et fournit également un contenu enrichi plus souvent.

Donc comme réservoir de notices d’acquisitions, il n’y a évidemment pas photo : seul Amazon est satisfaisant.

Pour les contenus enrichis dans notre Opac, je ne peux pas encore m’arrêter là : il faudra que je regarde sur un échantillon plus large et moins récent.

Remarque sur l’API Google : que se passe-t-il exactement ?

(soyons brefs : l’API Google est un moyen d’extraire de la base des informations sans avoir à passer par l’interface de recherche “commune”. L’interface de recherche est “user friendly”, l’API est “computer friendly” et permet de savoir ce que Google a dans le ventre pour plusieurs centaines ou milliers de requêtes simultanément)

Quelques comparaisons avec l’API GBS dans le Sudoc m’ont permis de voir des incohérences.

1. Si je prends La formation-animation : une vocation, de Pierre Goguelin : elle est dans le Sudoc, elle est dans GBS, et on trouve bien le lien du premier vers le second (mais pas de page de couverture dans le Sudoc, puisque pour GBS, c’est “aucun aperçu disponible).

2. Si je prends L’Économie française depuis 1967: la traversée des turbulences mondiales‎, de Jacques Adda, Jean-Marcel Jeanneney : c’est dans GBS avec extraits et couverture ; c’est dans le Sudoc avec couverture et lien vers GBS.

Pour l’instant, c’est cohérent :

  • quand le livre est numérisé et disponible (au moins en partie), l’API Google propose une couverture cliquable sur le Sudoc.
  • quand le livre est numérisé sans aucune lisibilité, l’API Google propose une icône cliquable

Mais si on prend Outils Web 2.0 en bibliothèque de Franck Queyraud : il est bien dans GBS, sans aperçu disponible. Pourtant si on va sur la notice Sudoc, il n’y a aucun lien vers la notice GBS.

____________________

Autres comparaisons de bases bibliographiques pour les nouvelles acquisitions (toujours sur 46 ISBN)

Donc ces deux réservoirs ne pourraient nous servir pour enrichir nos nouvelles acquisitions de pages de couvertures, par exemple. En revanche il faudra creuser sur le taux de recoupement avec l’ensemble du catalogue.

LibraryThing : taux de recoupement sur 1000 notices

Sur LibraryThing, j’ai fait les choses en plus grand : j’ai voulu tester le taux de recouvrement sur l’ensemble du catalogue.

Pour ce faire, j’ai extrait 1000 ISBN aléatoirement de nos dizaines de milliers d’ISBN. Et j’ai regardé si pour chaque ISBN l’URL http://www.librarything.com/api/thingISBN/numero_d_isbn me ramenait un résultat intéressant ou un message d’erreur.

Par exemple sur cet ISBN : 044172717, l’URL http://www.librarything.com/api/thingISBN/044172717 récupère un fichier XML contenant une balise unknownID : LibraryThing ne connaît pas cet ISBN.

Sur cet ISBN : 2744070262, l’URL http://www.librarything.com/api/thingISBN/2744070262 renvoie un fichier qui atteste que LibraryThing le reconnaît comme étant dans sa base.

J’ai appliqué une feuille XSL qui vérifie le contenu des fichiers générés ainsi pour les 1000 ISBN :

  • dans un fichier XML, je liste les 1000 ISBN.
  • pour chaque ISBN, je structure l’URL de requête dans LibraryThing
  • j’ouvre l’URL (qui est un fichier XML)
  • je regarde dans le fichier s’il y a une balise unknownID ou non, et j’additionne le nombre de balises unknownID présentes dans les 1000 fichiers ouverts.

Précision : j’ai à chaque fois regardé les ISBN à 10 et à 13 chiffres, et toujours sans les tirets.

Ce qui vous intéressera sans doute plus que ces descriptions absconses :

  • LibraryThing a retrouvé 290 ISBN sur les 1000 que je lui ai injectés, donc 29% de notre catalogue.

Voilà qui est intéressant si nous envisageons l’affichage des tags et commentaires issus de LibraryThing, comme ce qui a été fait à Angers.

Conclusion

Je regarderai prochainement, avec la même liste d’ISBN, ce qu’il en est pour WorldCat et pour Google Book Search : car si ces deux bases donnent des taux de recoupement faible pour les toutes dernières nouveautés (à l’inverse d’Amazon), il se peut que les constatations soient inverses pour l’ensemble de notre catalogue.

___________________

Excusez-moi pour les descriptions techniques qui parlent à peu de monde, j’espère que vous y retrouverez tout de même les conclusions par une lecture en survol.

Certains trouveront peut-être que la méthode employée est lourde. Je suis d’accord sur le principe, mais :

  • elle est moins lourde quand on connaît bien XSL : on choisit la méthode en fonction de ses propres compétences
  • elle est réapplicable assez facilement à n’importe quelle base proposant ses données par API. Donc je n’ai pas tellement à m’adapter à la base, charger des fichiers, etc. Je modifie légèrement le code et j’applique à la base suivante.

Mais je reste preneur de toute suggestion. Et si vous avez vous-mêmes fait ce genre d’analyse, vos chiffres seront intéressants à connaître.

A titre de curiosité

Je viens de faire une rapide manipulation pour savoir si nos ouvrages en cours d’acquisition étaient présents dans Amazon. J’en ai profité pour voir la proportion de couvertures présentes.

Nous acquérons à partir de LivreHebdo + Electre.

Pour une université pluridisciplinaire, donc, voici les stats — si jamais quelqu’un s’était posé la question sans avoir encore pris le temps d’y répondre :

  • Taux de recoupement des notices : 100%
  • Taux de présence de couvertures : 89,13%

Pour la méthode

J’ai demandé à mon administrateur SIGB une extraction de 50 ISBN d’ouvrages commandés mais non encore arrivés. Il se trouve qu’aucun n’était en langue étrangère.

J’avais donc une liste d’ISBN, que j’ai copié dans Word, où j’ai remplacé

  • tout saut de ligne (caractère ^p dans la boîte de Chercher-Remplacer)

par

  • “>Lien Amazon</a><br/>^p<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=

Cela m’a généré une liste de liens HTML : l’URL http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=numero_d_isbn correspond à une recherche de livre dans Amazon.

<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=9782701146591″>Lien Amazon</a><br/>
<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=8423324370″>Lien Amazon</a><br/>
<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=9782748344998″>Lien Amazon</a><br/>
<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=9782130571124″>Lien Amazon</a><br/>
<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=9782916589114″>Lien Amazon</a><br/>
<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=9780729302968″>Lien Amazon</a><br/>
<a href=”http://www.amazon.fr/s/ref=nb_ss_b?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Dstripbooks&field-keywords=9782804159450″>Lien Amazon</a><br/>

J’ai ensuite inséré ce code dans une page HTML vide : c’est à dire que j’ai ouvert Notepad, j’ai rajouté en tête de liste

<html><head/><body>

et en fin de liste

</body></html>

Et j’ai mis dans le nom de fichier une extension .html

Bon, ensuite j’ai dû ouvrir manuellement les 50 liens : LinkChecker ne m’aurait rien appris.

OpenURL : nationaliser une base bibliographique sans la mutualiser

J’ai déjà eu l’occasion de parler de Periodic, la base d’articles de vulgarisation scientifique entretenue par le SCD de  l’université de Pau, et au contenu indispensable et à l’ergonomie indigeste.

J’ai découvert en arrivant à Nice la base Odin. Le principe est le suivant : l’examen national classant (ENC, ou ECN) pour l’internat de médecine est composé d’items, c’est-à-dire de disciplines médicales (vous en avez la liste ici). Quand arrivent dans la BU de médecine des ouvrages pour la préparation du concours de l’internat, les catalogueurs consultent la table des matières, et indiquent dans la notice de l’ouvrage (notice locale, après redescente du Sudoc), les items que l’ouvrage en question permet de préparer.

Ces notices d’ouvrages sont ensuite exportées pour alimenter une base de données “des ouvrages permettant de préparer l’internat”, avec une recherche par mots ou par item. Un lien pointe ensuite vers la notice détaillée dans l’Opac.

Le rapprochement entre Periodic et Odin est le suivant : il s’agit de deux bases entretenues localement par des SCD, mais avec une utilité largement nationale. On est forcé d’admettre l’intérêt de tels dépouillements, destinés à des publics d’étudiants précis pour lesquels ces ressources sont extrêmement précieuses.

Mais les autres SCD seraient très intéressés pour pouvoir faire siennes ces bases, et éviter de refaire le même travail.

Concrètement, ces bases bibliographiques locales devraient proposer un lien vers le catalogue qui m’intéresse, moi, et pas vers le catalogue des SCD qui les alimentent.

Comment se faire ? Avec de l’OpenURL, évidemment !

Si pour chaque notice d’article ou d’ouvrage, un COinS, encapsulant les métadonnées du document au format OpenURL, est présent dans la page, n’importe quelle bibliothèque de France disposant d’un résolveur OpenURL peut recommander à ses étudiants la base en question, en leur disant d’installer OpenURL Referrer (extension Firefox qui fait apparaître les COinS comme des liens cliquables vers le résolveur qui m’intéresse) sur leur navigateur. De cette manière chaque SCD pourrait se spécialiser dans un public donné, lui fournir une base profilée, et renvoyer vers les autres bases de France (et de Navarre, pour Pau).

Conclusion : tout le monde doit avoir un résolveur OpenURL pour bénéficier des ces bases.

Le temps que tout le monde s’équipe, cela laisse aux SCD qui gèrent ce genre de bases de les développer pour y rajouter des COinS. A vue de nez, si on a une base en PHP, je dirais qu’une telle modification nécessite pour un développeur : 50 minutes de travail.

Et de préférence : mettez des COinS en OpenURL 0.1 et pas en 1.0, pensez aux bibliothèques qui ont un résolveur 0.1 !

Et vous, vous connaissez de ces bases spécialisées, en production locale ?

Formation des L1 – trop ou pas assez ?

Les agents des bibliothèques de l’UPMC-Paris 6 forment des L1, des M1, et des doctorants à la recherche de documentation, et plus largement à la maîtrise de l’information.

C’est un enjeu dramatique pour les L1 : nous avons droit à deux heures, 1h de cours, 1h de TD. Et ensuite on ne les revoit pas avant leur première année de Master. Donc en une heure, nous devons leur donner un bagage de compétence pour chercher, évaluer, valider une information, qui devra leur servir pendant leurs trois années à venir.

Cela veut dire plusieurs problèmes :

  1. En une heure, qu’est-ce qu’on peut bien avoir le temps de leur raconter ?
  2. Ils arrivent en connaissant Google, dont la recherche apparemment spontanée ne remet pas leurs pratiques de recherche en question (ils sont toutefois mieux armés qu’il y a trois ans, pour ce que j’en vois).
  3. Entre les L1 et les L3, la différence de besoins documentaires est assez importante.

Le support de cours qui en résulte est ici. On leur parle de :

  • Méthodologie documentaire (faire une recherche = réfléchir d’abord)
  • Recherche de livres dans le catalogue de la BU
  • Recherche d’articles (Periodic ou Pascal, au choix)
  • Recherche de livres dans le Sudoc

En une heure, c’est déjà trop. On devrait se limiter aux deux premiers points. Mais alors, que feront-ils dans un an ou deux ? Donc on leur parle du Sudoc et de bases d’articles, dont je sais que, si j’étais à leur place, j’oublierais le nom et le mode d’emploi immédiatement.

Il faudrait donc pouvoir les revoir en L2, voire aussi en L3. Et leur rappeler les acquis, puis rajouter un contenu supplémentaire.

En l’état, j’ai vraiment le sentiment de ne pas servir à grand chose…