Skip to content

A titre de curiosité (2) : comparaison catalogue – autres bases de livres

23/06/2009

Comparaison Nouvelles acquisition du SCD / Google Book Search

Dans la perspective de définir des sources pertinentes comme

  1. base bibliographique pour les nouvelles acquisitions (ne pas avoir à resaisir une notice dans notre module Acquisitions, mais l’importer directement)
  2. source pour des contenus enrichis, tant vis-à-vis des nouvelles acquisitions que de l’ensemble du catalogue

j’essaie d’utiliser les API (ou tout autres méthodes) de différents sites pour voir le taux de recoupement, et donc les services que ces bases pourraient nous rendre.

C’est promis, j’essaierai de définir ce qu’est une « API » rapidement, car je ne suis pas certain que le concept soit limpide pour tous.

Il faut donc voir :

  • pour commander les acquisitions, si la notice est dans la base étudiée
  • pour afficher les nouveautés, si la couverture est dans la base étudiée
  • pour enrichir notre catalogue, si la base étudiée propose des couvertures, des résumés, des tables des matières, l’accès au texte intégral, des tags, des commentaires, des liens vers d’autres éditions du même ouvrage (WorldCat et LibraryThing proposent ce genre de choses. C’est la philosophie FRBR), etc. — et avec quel taux de recouvrement avec notre catalogue

Pour Google Book Search, j’ai pour l’instant uniquement regardé si c’était un outil pertinent pour nos acquisitions, tant pour importer une notice à la commande que pour afficher la page de couverture sur notre site.

La démarche est la même qu’ici (présence dans Amazon de nos notices de nouvelles acquisitions — avec un échantillon de 46 titres). J’obtiens sur Google Book Search :

  • 76 % de notices présentes
  • 15 % de couvertures

Sur ce dernier chiffre (15%) : GBS n’affiche de page de couverture que lorsqu’il peut proposer un « affichage d’extraits » ou un aperçu limité ». Quand il n’y a « aucun aperçu disponible« , il n’y a pas de couverture non plus — alors que la couverture du même livre est bien disponible sur Amazon.

Par ailleurs, pour toutes les notices manquantes chez Google Books, elles étaient avec couverture chez Amazon.

Petites réflexions

J’ai donc comparé GBS et Amazon pour une cinquantaine de titres très récents. Amazon est plus complet pour les notices bibliographiques, et fournit également un contenu enrichi plus souvent.

Donc comme réservoir de notices d’acquisitions, il n’y a évidemment pas photo : seul Amazon est satisfaisant.

Pour les contenus enrichis dans notre Opac, je ne peux pas encore m’arrêter là : il faudra que je regarde sur un échantillon plus large et moins récent.

Remarque sur l’API Google : que se passe-t-il exactement ?

(soyons brefs : l’API Google est un moyen d’extraire de la base des informations sans avoir à passer par l’interface de recherche « commune ». L’interface de recherche est « user friendly », l’API est « computer friendly » et permet de savoir ce que Google a dans le ventre pour plusieurs centaines ou milliers de requêtes simultanément)

Quelques comparaisons avec l’API GBS dans le Sudoc m’ont permis de voir des incohérences.

1. Si je prends La formation-animation : une vocation, de Pierre Goguelin : elle est dans le Sudoc, elle est dans GBS, et on trouve bien le lien du premier vers le second (mais pas de page de couverture dans le Sudoc, puisque pour GBS, c’est « aucun aperçu disponible).

2. Si je prends L’Économie française depuis 1967: la traversée des turbulences mondiales‎, de Jacques Adda, Jean-Marcel Jeanneney : c’est dans GBS avec extraits et couverture ; c’est dans le Sudoc avec couverture et lien vers GBS.

Pour l’instant, c’est cohérent :

  • quand le livre est numérisé et disponible (au moins en partie), l’API Google propose une couverture cliquable sur le Sudoc.
  • quand le livre est numérisé sans aucune lisibilité, l’API Google propose une icône cliquable

Mais si on prend Outils Web 2.0 en bibliothèque de Franck Queyraud : il est bien dans GBS, sans aperçu disponible. Pourtant si on va sur la notice Sudoc, il n’y a aucun lien vers la notice GBS.

____________________

Autres comparaisons de bases bibliographiques pour les nouvelles acquisitions (toujours sur 46 ISBN)

Donc ces deux réservoirs ne pourraient nous servir pour enrichir nos nouvelles acquisitions de pages de couvertures, par exemple. En revanche il faudra creuser sur le taux de recoupement avec l’ensemble du catalogue.

LibraryThing : taux de recoupement sur 1000 notices

Sur LibraryThing, j’ai fait les choses en plus grand : j’ai voulu tester le taux de recouvrement sur l’ensemble du catalogue.

Pour ce faire, j’ai extrait 1000 ISBN aléatoirement de nos dizaines de milliers d’ISBN. Et j’ai regardé si pour chaque ISBN l’URL http://www.librarything.com/api/thingISBN/numero_d_isbn me ramenait un résultat intéressant ou un message d’erreur.

Par exemple sur cet ISBN : 044172717, l’URL http://www.librarything.com/api/thingISBN/044172717 récupère un fichier XML contenant une balise unknownID : LibraryThing ne connaît pas cet ISBN.

Sur cet ISBN : 2744070262, l’URL http://www.librarything.com/api/thingISBN/2744070262 renvoie un fichier qui atteste que LibraryThing le reconnaît comme étant dans sa base.

J’ai appliqué une feuille XSL qui vérifie le contenu des fichiers générés ainsi pour les 1000 ISBN :

  • dans un fichier XML, je liste les 1000 ISBN.
  • pour chaque ISBN, je structure l’URL de requête dans LibraryThing
  • j’ouvre l’URL (qui est un fichier XML)
  • je regarde dans le fichier s’il y a une balise unknownID ou non, et j’additionne le nombre de balises unknownID présentes dans les 1000 fichiers ouverts.

Précision : j’ai à chaque fois regardé les ISBN à 10 et à 13 chiffres, et toujours sans les tirets.

Ce qui vous intéressera sans doute plus que ces descriptions absconses :

  • LibraryThing a retrouvé 290 ISBN sur les 1000 que je lui ai injectés, donc 29% de notre catalogue.

Voilà qui est intéressant si nous envisageons l’affichage des tags et commentaires issus de LibraryThing, comme ce qui a été fait à Angers.

Conclusion

Je regarderai prochainement, avec la même liste d’ISBN, ce qu’il en est pour WorldCat et pour Google Book Search : car si ces deux bases donnent des taux de recoupement faible pour les toutes dernières nouveautés (à l’inverse d’Amazon), il se peut que les constatations soient inverses pour l’ensemble de notre catalogue.

___________________

Excusez-moi pour les descriptions techniques qui parlent à peu de monde, j’espère que vous y retrouverez tout de même les conclusions par une lecture en survol.

Certains trouveront peut-être que la méthode employée est lourde. Je suis d’accord sur le principe, mais :

  • elle est moins lourde quand on connaît bien XSL : on choisit la méthode en fonction de ses propres compétences
  • elle est réapplicable assez facilement à n’importe quelle base proposant ses données par API. Donc je n’ai pas tellement à m’adapter à la base, charger des fichiers, etc. Je modifie légèrement le code et j’applique à la base suivante.

Mais je reste preneur de toute suggestion. Et si vous avez vous-mêmes fait ce genre d’analyse, vos chiffres seront intéressants à connaître.

Publicités
6 commentaires
  1. bibhyb permalink
    25/06/2009 13:04

    Je trouve que l’exemple est très bien choisi… 😉 FQ

  2. 25/06/2009 14:30

    @bibhyb : oui, j’espère que tu as noté mon numéro de compte la dernière fois, pour mes émoluments ! 😉

  3. 25/06/2009 14:35

    @Lully 😀 un tee-shirt aux armoiries du bibliolab, ca ira ? 😉

  4. 25/06/2009 14:38

    Superbe !

Trackbacks

  1. Qu’est-ce qu’une API ? « Encore un biblioblog…
  2. Vérifier la présence de ses ISBN dans Amazon (et GBS) « Encore un biblioblog…

Les commentaires sont fermés.

%d blogueurs aiment cette page :