Libx : problème de conversion des ISBN 13 en ISBN 10

J’ai très peu de temps à moi en ce moment, et beaucoup de choses à raconter. Donc si je réussi à publier, ce seront nécessairement de petits billets.

Parmi les trucs qui traînent : dans plusieurs billets antérieurs j’ai expliqué comment rendre cliquable tout ISBN en générant un lien vers son catalogue en ligne.

Or, vous l’avez peut-être remarqué, lorsque LibX rencontre un ISBN 13, il le rend cliquable mais le lien généré lance une requête sur l’ISBN 10 équivalent. Ce qui peut être un problème dans de nombreux cas.

Ce comportement n’était pas paramétrable jusqu’à il y a peu, du moins pour les “catalogs” générés avec des “Bookmarklet (URL Template)”.

Or cette conversion est désormais désactivable, pour les catalogues pré-définis dans LibX (Aleph, Sirsi, Evergreen, etc.) mais aussi pour les Bookmarklets.

Il faut, pour le catalogue choisi, cocher “Optional Settings”, et décocher la case Downconvert 13-digits to 10-digits ISBN”.

Ainsi les ISBN 13 resteront tels quels.

Et merci à Chapi et/ou Chapo de m’avoir signalé cette mise à jour sur l’interface LibX

Astuce 8 : afficher correctement les ISBN (et ISSN) dans Excel

Je ne sais pas pour vous, mais moi, les ISBN collés dans Excel finissent toujours par ressembler à ceci :

  • 9,7828E+12
  • 9,78271E+12
  • 9,78271E+12
  • 9,78271E+12
  • 9,78921E+12
  • 9,78271E+12

Pour les afficher correctement, il y a plusieurs manières. En voici une :

  1. Sélectionnez les cellules incriminées
  2. Aller dans Format > Cellule
  3. Dans le 1er onglet (Nombre), choisissez le format “Personnalisé”)
  4. Dans la case de droite, mettez treize caractères # (chaque dièse correspond à un chiffre, et vous décidez d’afficher ces 13 chiffres à la suite)

Remarque 1 : vous pouvez aussi en profiter, si vous les préférez ainsi, pour ajouter des espaces ou des tirets dans votre modèle de format.

Remarque 2 : de la même manière, si vous récupérez une liste d’ISSN sans tiret, vous pouvez aussi mettre comme format personnalisé : ####-#### (ne marchera pas si à la fin de l’ISSN il y a un X)

Remarque 3 : si vous constatez que dans les ISSN, Excel fait sauter les 0 initiaux (si 0123-4567 s’affiche 123-4567), vous pouvez mettre comme format personnalisé : 0###-####. Ainsi le zéro initial sera préservé (et si l’ISSN est 1234-5678, aucun zéro initial ne sera rajouté).

Je vous laisse tester d’autres combinaisons ;-) Enjoy yourself

Interrogation Sudoc : recherche rapide façon Google

Vous le savez déjà, Google permet, avec des raccourcis à saisir dans l’encart de recherche simple, de chercher des mots dans le titre (intitle:), dans l’url (inurl:), en limitant à un site (site:), etc.

Grâce à un commentaire sur ce blog, j’avais appris qu’en recherche “Tous les mots” (celle qui est proposée en plugin de recherche rapide) dans le Sudoc on pouvait écrire : “PPN 039237192″ et lancer ainsi une recherche sur le PPN (cette recherche étant impossible si on n’écrit pas “PPN” avant).

 

Et je découvre enfin avec un peu d’obstination que d’autres raccourcis existent (la liste est fournie dans l’aide en ligne — soit dit en passant, le PPN n’y est pas mentionné). Notamment l’ISBN (écrire : ISB) et l’ISSN (écrire : ISN).

Voilà qui va changer ma vie ! (non, il ne faut pas avoir peur de forcer les expressions pour inciter à l’usage !-)) et changer mon utilisation du plugin de recherche Sudoc.

LibX et Zotero pour les acquéreurs – une certaine utilisation de ces outils (2/2)

Si un acquéreur trouve sur une page web une référence d’ouvrage, et si cette référence fournit l’ISBN, il peut désormais (avec LibX) basculer en un clic sur un site Zotero-compatible fournissant ladite référence).

Mais très souvent il ne trouvera que le titre et l’auteur (peut-être aussi l’éditeur et l’année, mais la combinaison Titre+Auteur devrait suffire).

LibX permet aussi, de la même manière que pour l’ISBN, en utilisant le menu contextuel, de basculer sur le site en interrogeant Titre+Auteur.

Pour cela, il faut que chacun des “catalogues” paramétrés pour l’ISBN le soit aussi pour “Keyword” (correspondant à une recherche Titre-Auteur-Sujet dans une base).

Voir un exemple de paramétrage pour WorldCat : vidéo – 5 min (avec son)

Pour paramétrer une nouvelle base (par exemple WorldCat), il faut donc :

  1. aller sur la base et lancer une requête contenant un titre, un auteur et un ISBN (oui, je sais, c’est une requête absurde).
  2. récupérer l’URL de la requête
  3. dans cette URL, remplacer le titre et l’auteur par : %Y, et l’IBSN par : %i
  4. aller sur l’interface de LibX

Dans l’interface LibX, pour une édition existante,

  1. créer un nouveau catalogue (onglet Catalogs & Databases) par “Bookmarklet” (ou mettre à jour un catalogue existant).
  2. Cocher Required Settings pour afficher les champs obligatoires, et dans “Bookmarklet Search Options”, cliquer sur Change pour cocher “Keywords” (et en face : cocher CtxtMenu)
  3. Retourner dans l’onglet My Editions et cliquer sur “Build Edition” pour reconstruire une extension Firefox/IE, puis aller sur la page de test réinstaller cette extension.

Vidéo – quelques remarques d’utilisation pour conclure (2′25 – avec son)

Quelles URLs ?

  • Pour Amazon : http://www.amazon.fr/s/ref=nb_ss?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Daps&field-keywords=%i%Y
  • Pour WorldCat : http://www.worldcat.org/search?q=kw:%Y+bn:%i&qt=advanced
  • Pour le Sudoc : Vous allez rire, je n’ai pas réussi à faire entrer dans LibX une URL contenant à la fois la recherche “Keyword” (%Y) et la recherche ISBN (%i). Je veux dire qu’une telle URL peut être obtenue dans le Sudoc, mais elle faisait bugger l’installation de l’extension. J’ai donc dû créer, à côté d’un catalogue “Sudoc ISBN”, un autre catalogue “Sudoc – Titre-Auteur”… En voici l’URL :
    http://www.sudoc.abes.fr/DB=2.1/CHARSET=UTF-8/SRCH?IKT=1016&TRM=%Y

Voir le résultat pour mon extension, qui comprend donc :

  • lien ISBN vers mon opac
  • menu contextuel ISBN vers Amazon, WorldCat, Sudoc
  • menu contextuel Titre-Auteur vers Amazon, WorldCat, Sudoc

Conclusion

Après tous ces paramétrages un peu complexes (mais depuis le début je trouve la configuration de LibX complexe), on peut enfin proposer aux acquéreurs une extension LibX qui :

  • permet de cliquer sur un ISBN pour savoir si nous avons déjà l’ouvrage
  • permet de sélectionner un ISBN puis par un clic droit basculer sur une base d’ouvrages proposant forcément l’ouvrage sous une forme Zotero-compatible
  • permet de sélectionner une combinaison Auteur-Titre pour basculer avec la même facilité.
  • A noter : un acquéreur ayant installé LibX peut estimer inutile d’avoir WorldCat, Amazon, le Sudoc et Google Books, par exemple. Il peut lui-même, dans les préférences LibX, n’enrichir son menu contextuel que de certains de ces rebonds.

Et donc ainsi exploiter pleinement Zotero comme gestionnaire de paniers pour acquéreurs, en combinaison avec Moccam-en-ligne.

Si vous ne vous en sortez pas mais que l’objectif vous semble désirable, vous pouvez travailler à plusieurs sur une même extension LibX.

Partagez-la vôtre avec moi ! (44” – avec son)

Les 5 étapes listées lors du 1er billet sur LibX et Zotero pour acquéreurs sont donc “assumées”. Mais j’ai manqué d’honnêteté en les listant : il reste encore ce qui est en amont de la 1ère étape, la manière dont sont trouvées les références.

Là-dessus, il n’y aura jamais de solution “ultimate” (pour reprendre une expression de Shaun le mouton). Mais j’espère faire bientôt des propositions sur cette question aussi.

Créer un nouveau style de bibliographie pour Zotero en 3 vidéos

Bon, c’est bâclé mais au moins c’est fait.

En fait, une vidéo suffit : celle-ci, qui présente en 5 minutes (avec son) l’interface de Simple Style Generator de Zotero.

Mais cette seconde vidéo-ci (5 minutes aussi) peut être nécessaire pour ceux qui voudraient rajouter des champs non proposés sur l’interface. En effet la demande m’est venue dans un commentaire d’expliquer un peu l’interface, or celle-ci ne permet pas de récupérer l’ISBN (et éventuellement tout autre champ un peu exotique : si on veut récupérer le champ de Notes parce qu’on y stocke systématiquement le prix des ouvrages ou ce genre de choses, par exemple).

La seconde vidéo rajoute la valeur de l’ISBN dans un style déjà créé. Cela passe par une intervention simple dans le fichier XML simple qui génère les références bibliographiques. Mais je n’y prends pas le temps d’expliquer ce que sont des balises XML, par exemple….

Et enfin, cette troisième vidéo (1 ‘30) explique comment retrouver l’intitulé d’un champ qu’on voudrait exporter dans une bibliographique.

En effet dans la vidéo 2, j’ai utilisé le champ ISBN, dont le nom (“ISBN”) était relativement intuitif. Pour “l’appeler” dans le fichier de style, je voyais à peu près quel nom utiliser. Ce n’est pas toujours le cas. La 3e vidéo indique comment retrouver le nom d’un champ qu’on souhaite exporter.

<update>En fait, on a la liste des champs et la manière de les désigner sur cette page du site Zotero</update>

Je précise surtout que ces trois vidéos sont fondamentalement contextuelles, liées aux billets que j’ai fait autour de Zotero pour les acquéreurs et à l’export d’ISBN. Ce n’est donc pas une formation approfondie à l’interface, et l’exemple de style créé dans la vidéo n’a de sens que pour les monographies, pas pour les articles (par exemple).

Bref, c’est du vite fait mal fait pour permettre une première approche.

L’ensemble des vidéos prend 12 minutes, avec le son (sans le son aussi, d’ailleurs). Mais au final, pour créer un style, il faut 3 minutes maximum…

Je précise enfin que je ne suis pas un spécialiste des styles de bibliographies ni de l’interface Simple Style Generator : j’ai dû m’en servir 5 fois dans ma vie (dont les 3 fois pour faire ces vidéos).

LibX et Zotero pour les acquéreurs – une certaine utilisation de ces outils (1/2)

Plusieurs billets antérieurs essaient de reconstituer une chaîne de traitement pour les acquéreurs, en utilisant des outils adaptés (au besoin en les adaptant) et en essayant de fluidifier tout ça.

Résumons :

  • Etape 1 : la veille. L’acquéreur trouve sur Internet (notamment par des fils RSS adaptés, ou en s’abonnant à Vigilibris ou Electre) des titres intéressants à acheter
  • Etape 2 : le panier. il constitue dans Zotero un panier à partir de toutes ces sources pour constituer sa future commande
  • Etape 3 : l’export du panier. il exporte les ISBN de son panier Zotero grâce à un format “bibliographique”.
    A noter : je n’ai pas du tout exploré dans ce circuit les potentialités de la gestion de paniers en ligne avec Zotero 2.0. Ce serait à creuser.
  • Etape 4 : la récupération des notices il met cette liste d’ISBN dans Moccam-en-ligne pour en récupérer les notices (même billet Zotero-Moccam)
  • Etape 5 : le chargement dans le SIGB.

Comme Shaun l’a bien vu (mais je prétends m’en être rendu compte dès la rédaction du billet sur Zotero pour les acquéreurs), il y a un souci à l’étape 1 : lorsque je trouve une référence intéressante, c’est rarement (ou au moins : pas toujours) sur un site Zotero-compatible (rappelons tout de même qu’il est très facile quand on tient un blog ou un site web d’insérer une référence d’ouvrage avec Zotero, et que ça rend la notice téléchargeable par les internautes utilisant aussi Zotero).

Donc il faut trouver une manière de basculer rapidement depuis le site contenant la référence vers un site me permettant d’exporter cette référence.

C’est là que je propose LibX.

LibX démultiplié

Souvenez-vous : LibX permet de rendre un ISBN cliquable de manière à ce qu’il pointe vers votre catalogue.

Mais

  1. rien ne vous empêche de pointer vers une autre base que votre catalogue. Par exemple : le Sudoc, WorldCat, Google Books, Amazon.
  2. rien de nous empêche de paramétrer plusieurs catalogues.

Que se passe-t-il si vous paramétrez plusieurs catalogues ?

Pour exploiter les ISBN comme rebonds vers des bases d’ouvrages, LibX vous propose deux méthodes :

  1. l’autolink : le navigateur reconnaît un ISBN et le rend cliquable. S’il y a plusieurs catalogues paramétrés, il ne pointe que vers le 1er
  2. le lien dans le menu contextuel : les préférences LibX permettent de choisir d’afficher un ou plusieurs des catalogues paramétrés
    Ce qui  permet de voir :

Rappel : pour afficher la pop-up “LibX Preferences”, cliquez (clic gauche) sur l’icône LibX présente au bas de votre navigateur, et choisir la ligne “LibX Preferences” :

Bon, et maintenant ?

Si vous paramétrez Amazon, WorldCat et le Sudoc, par exemple, sur les critères ISBN, vous pouvez être sur n’importe quelle interface contenant un ISBN, et ainsi connaître d’un clic la disponibilité, puis, si vous n’avez pas l’ouvrage, la possibilité de basculer (en sélectionnant l’ISBN puis en faisant un clic droit) sur une autre base zotero-compatible, vous permettant ainsi de charger la notice aisément.

Pour paramétrer ces trois bases, il faut :

  1. créer pour chacune un nouveau catalogue “Bookmarklet (URL Template)”,
  2. sélectionner ISBN dans les champs interrogeables et indiquer les URL suivantes :
    1. Amazon : http://www.amazon.fr/s/ref=nb_ss?__mk_fr_FR=%C5M%C5Z%D5%D1&url=search-alias%3Daps&field-keywords=%i (le %i indique où l’ISBN est à placer pour structurer une URL de requête)
    2. WorldCat : http://www.worldcat.org/search?qt=worldcat_org_all&q=%i
    3. Sudoc : http://www.sudoc.abes.fr/DB=2.1/CMD?ACT=SRCHA&IKT=7&SRT=RLV&TRM=%i

    Sauf pour le Sudoc, les URL indiquent qu’il faut faire une recherche “Tous champs” dans laquelle placer l’ISBN

Voir la vidéo (3-34 – muet)

Limites

La sélection de l’ISBN peut parfois être pénible du fait qu’il soit rendu cliquable. Vous pouvez donc être amené à désactiver l’autolink (décocher la case dans les préférences LibX). Les ISBN ne seront plus cliquables, mais vous pourrez les sélectionner plus facilement (par un double-clic gauche).

Ne nous leurrons pas : sur de nombreux sites seuls le titre et l’auteur seront fournis. Donc pas de recherche ISBN possible.

Cette question fera l’objet du prochain billet..

LibX – Première approche

Honnêtement, j’ai eu du mal avec l’interface de paramétrages de LibX. Et comme je n’ai pas réussi à trouver de tutoriel simple en français, il me semble utile d’en faire un petit ici.

Pour l’instant, mon objectif avec LibX sera “simple” (au regard de toutes les possibilités que l’outil offre) : obtenir des ISBN cliquables dans les pages web que je vais rencontrer.

LibX permet aussi, par exemple, une articulation avec un résolveur de lien et un proxy (pour les ressources en ligne payantes). Mais on n’en est pas là.

Vidéo 1 (4 min) : interface LibX (présentation d’ensemble)

Vidéo 2  (5 min) : onglet Catalogs & Databases

Cet onglet est le point central de l’outil : il faut que vous sachiez comment interroger votre opac sur le critère ISBN.

Dans le meilleur des mondes :

  1. il devrait vous suffire pour cela d’aller sur votre opac, de mettre un ISBN dans le champ de recherche, et de récupérer l’URL.
  2. Ensuite, dans cette URL, vous regardez où apparaît l’ISBN, et vous remplacer la séquence de chiffres par : %i
  3. Vous retournez dans LibX, onglet Catalogs & Databases, et vous créez un nouveau Catalog
  4. Puis vous indiquez l’URL “modèle” (template)

Vidéo 3 (3′ 38) : utilisation du plugin

Vérifiez que dans le Menu contextuel, pour l’onglet ISBN, la case soit cochée.

Conclusion

Ma présentation est très confuse et j’en suis désolé.

Mais je pense que ça vaut le coup de se pencher un peu sur cet outil, car il peut rendre vraiment de grands services.

Ceux qui ont des difficultés à paramétrer le leur peuvent lever le doigt, je vais passer dans les rangs ;-)

Dernière remarque : pour l’instant, on est vraiment dans un outil pour les professionnels. Je ne vois pas comment convaincre une population de lecteurs de l’utiliser. Mais ce point-là doit tout de même être inclus dans la réflexion !

Les tirets : un point de détail ?

J’ai en projet différents billets autour des ISBN, dont un au sujet de LibX.

Mais avant de vous les proposer, et pour vous éviter toute fatigue inutile, il vaut mieux d’abord signaler un problème concernant plusieurs Opac : quand on interroge un opac sur le critère ISBN :

  • tantôt l’Opac ne tient pas compte de la présence ou de l’absence de tirets dans la requête et dans les notices, et il est capable d’associer une notice avec dans le champ ISBN “978-2-07-039656-6“, et une requête “9782070396566“. Et l’inverse sera vrai aussi. C’est à dire que l’opac évacue les tirets à la fois dans les notices et dans les requêtes, pour ne considérer que la série de chiffres.
  • tantôt il en tient compte, et il faut faire une recherche sur l’ISBN tel que saisi dans la notice (que ce soit avec ou sans tirets)

C’est peut-être un détail pour vouspour l’instant.

Je ne vais pas encore me lancer dans l’explication sur l’importance du problème. Là, je vais juste faire le tour de quelques opac.

Je vous invite à me signaler les manques en commentaires pour que je complète la liste.

(Rq : la 3e colonne précise sur quelles requêtes je me base pour remplir la seconde. Si vous trouvez des contre-exemples, fort probables, ce sera intéressant de les indiquer en commentaire pour essayer de comprendre ce qui peut différer. Je me suis contenté à chaque fois qu’une seule requête avec puis sans tiret, parce que je suis déjà bien brave!)

Logiciel Comportement Recherches effectuées
Bookline Indifférent aux tirets : il supprime (virtuellement) les tirets de la notice, et ceux de la requête, et trouve l’ouvrage recherché 2-86377-085-32863770853
Aleph Indifférent aux tirets 978-2-7557-0385-6
9782755703856
AB61 Indifférent aux tirets– Il y a des problèmes tout de même : cf. ce commentaire

Ca semble bon sur l’interrogation des EAN, mais pas des ISBN

978-2-7578-0310-39782757803103
HIP (Horizon de SirsiDynix) Il faut chercher l’ISBN tel que saisi dans la notice Recherche avec tirets (ISBN tel que catalogué) : OK 2-281-32025-1Pb : 2281320251
Koha Il faut indiquer l’ISBN tel que saisi dans la notice Recherche avec tirets : PB  2-03-301192-5Recherche sans tirets (tel que catalogué) : OK 2033011925
Flora Il faut chercher l’ISBN tel que saisi dans la notice Recherche avec tirets (ISBN tel que catalogué) : OK : 978-2-85428-847-6Pb : 9782854288476
Aloes (Opsys) Il faut chercher l’ISBN tel que saisi dans la notice

<update>ça dépend des versions, cf. commentaire</update>

Recherche avec tirets (ISBN tel que catalogué) : OK : 2-89455-070-7Pb : 2894550707
V-Smart (Infor) Indifférent aux tirets 2-7384-4531-42738445314
PMB Indifférent aux tirets 978-2-02-055725-29782020557252

J’ai fait la requête sur cet opac, mais n’ai pas réussi à créer un lien vers les notices détaillées. Ce qui ne veut pas dire qu’un tel lien soit impossible avec PMB : ce qui m’importe ici, c’est de pouvoir tester les ISBN avec et sans tiret.

Millenium Indifférent aux tirets 978-2-7493-0239-39782749302393

Il en manque beaucoup, j’en ai conscience, mais j’ai passé déjà du temps à trouver des interfaces pour ceux qui précèdent, et si je continue à chercher d’autres opac, je ne ferai rien d’autre avant 3 semaines au moins.

Donc si vous avez un opac à me signaler, voire même si vous en connaissez déjà le comportement, n’hésitez pas à me le mettre en commentaire : tout le monde gagnera du temps.

Pourquoi ces tests ?

Bien, nous avons constaté que certains Opac n’acceptaient les ISBN que selon la manière dont ils avaient été saisis dans les notices.

Nous avons vu aussi dans un précédent billet qu’Electre permettait un lien direct vers les notices de son propre Opac, sur le critère de recherche “ISBN”. Et Daniel et Stéphanie m’ont fait remarquer en commentaire qu’une telle fonction était possible de manière beaucoup plus large avec LibX.

Que permet LibX ?

LibX est un site web permettant à des bibliothécaires de paramétrer assez facilement une extension pour Firefox ou IE, telle que tout ISBN rencontré sur Internet sera cliquable et pointera vers l’opac choisi par le bibliothécaire.

LibX permet aussi d’autres choses (j’y reviendrai), mais là est le point qui m’intéresse : si vous êtes acquéreur, et que vous trouvez une notice intéressante sur WorldCat, Amazon ou le Sudoc, un ISBN de l’ouvrage sera présent dans la page. L’installation de LibX (pré-paramétré pour votre bib) rendra cet ISBN cliquable vers votre opac, vous permettant immédiatement de savoir si cet ouvrage est déjà présent ou non dans vos collections.

Sur Amazon

Sur le Sudoc

(notez au passage, en haut, la ligne “Lien direct vers cette notice”, grâce au script de Symac)

Sur Wikipedia (ou toute autre page web où LibX réussira à reconnaître un ISBN)

Quel rapport entre les tirets et LibX ?

Simplement : quand LibX crée un lien “à la volée” lorsqu’il reconnaît un ISBN, il supprime tous les tirets dans l’URL de requête vers l’Opac.

Par exemple, dans la notice Sudoc ci-dessus, la page contient l’ISBN “978-2-02-049087-0“, mais LibX crée un lien vers mon opac sur le critère : 2020490870 (qui est l’ISBN 10 correspondant à l’ISBN 13 présent dans la notice), c’est-à-dire qu’il a supprimé les tirets.

En outre, la plupart du temps sur Internet ce sont des ISBN sans tirets que le navigateur rencontre : Amazon, WorldCat, Google Books, etc.

Si bien que les bibliothécaires dont les Opac ne supportent pas les ISBN sans tiret :

  1. Vous laissez tomber LibX
  2. Vous obtenez une réinformatisation
  3. Dans votre choix de SIGB, vous retenez ce critère idiot que sont les tirets dans les ISBN (au passage : vous vérifiez la validité de cette liste aussi).

(Remarque : ce n’est pas une liste à puces, c’est bien une liste à numéros : l’objectif est de revenir à LibX un jour, et à toutes les autres manipulations d’ISBN qui se développent chaque jour davantage)

Conclusion

Le billet qui portera sur LibX (et qui reste à écrire) ne pourra concerner que ceux dont les opac fonctionnent correctement. Vous êtes prévenus !

——————————-
1 : Sur AB6, je remarque une chose curieuse. Cet Opac crée un identifiant de session, mais cette session, valide sur une certaine durée, ne dépend pas du navigateur : généralement, pour m’assurer qu’un lien vers une notice est vraiment pérenne, je récupère l’URL pour la coller dans un autre navigateur qui n’est pas encore aller sur le site en question, et le tester. Avec AB6, ce transfert fonctionne sans difficulté.
En revanche le lendemain, sur le même navigateur, le lien ne marche plus.
Je suppose (mais d’autres, plus informaticiens, pourront peut-être me contredire ?) qu’AB6 ouvre une session uniquement sur son propre serveur, sans créer dans le navigateur un cookie associé à cette session. Passé un temps d’inactivité, il “ferme” la session. Mais cela a permis que ce même identifiant de session (présent dans l’URL) soit transportable d’un navigateur (voire d’un ordinateur) à l’autre.

Vérifier la présence de ses ISBN dans Amazon (et GBS)

Je sais, vous allez me prendre pour un piper fou, et à chaque nouveau billet, vous dire : “Bon, il commence à radoter avec ses machins.”

Ce n’est pas que de ma faute : récemment, quelqu’un (non, pas Marlène, pour une fois) m’a poussé dans mes retranchements sur ce que j’arrivais ou non à faire avec Yahoo Pipes. Bref, ces derniers jours j’ai développé des compétences et découvert les “pipes d’appui” (la terminologie est de moi et n’est pas fixée : je vous laisse rebaptiser ça comme vous voulez, éventuellement en vous inspirant d’autres domaines).

Le principe est “simple” : je crée un pipe, mais celui-ci n’a d’intérêt que lorsqu’il est intégré dans un autre pipe.

Ainsi, j’ai créé un pipe qui, pour un ISBN donné, va lancer une requête dans Amazon : avec l’ISBN indiqué, il construit une URL de requête et ouvre la page des résultats chez Amazon) :

  1. S’il trouve l’ISBN, il sort le résultat : “Nombre d’ISBN trouvés : 1″ (même s’il a plusieurs résultats pour un même ISBN, il ne sort que le chiffre 1)
  2. S’il ne trouve pas l’ISBN, il ne sort rien du tout.

Ce pipe n’a aucun intérêt : si vous voulez savoir si un ISBN se trouve ou non chez Amazon, vous allez sur le site d’Amazon et vous le cherchez.

Sauf que par dessus, j’ai construit un autre pipe : on lui donne une liste d’ISBN (les ISBN sont sans tirets, et ils sont séparés les uns des autres par des tirets). Et pour chaque ISBN, il applique le pipe précédent.

Ca se passe ici : j’ai fait glissé un de “mes pipes” à l’intérieur du module Loop, et j’ai coché “Emit results” pour que le résultat de la boucle, ce soit les pipes-relais mis bout à bout.

  • Quand l’ISBN produit un item, il sort un item
  • Quand il ne produit rien, il en sort rien
  • Et à la fin, le second pipe décompte le nombre d’items (donc le nombre d’ISBN reconnus)

Ca ne vous évoque rien ? C’est une sorte d’API Amazon : il transforme les données HTML d’Amazon en données XML plus manipulables.

Pourquoi est-ce que j’ai fait ça ? Parce que pour utiliser les API Amazon, il faut avoir une clé Amazon et utiliser les API en question pour un site web. Moi, j’en ai besoin en local, ponctuellement. J’avais pu tester les API LibraryThing pour constater qu’ils couvraient 30% de notre catalogue (sur un échantillon de 1000 ISBN). Je n’avais pas pu le faire pour Amazon.

Désormais je sais qu’Amazon couvrirait 94% de nos notices. Pour être plus précis : Amazon a identifié 94% de nos ISBN. En l’état, cela ne me dit pas quel pourcentage de couvertures il peut me proposer, ou de tables des matières, résumés, commentaires, etc. Il faudrait que j’affine l’analyse des réponses que le site donne dans ses listes de résultats.

Donc j’ai fait plusieurs autres pipes :

Rq : j’ai dû entrer les ISBN par paquets de 200 (donc en 5 fois), car Yahoo Pipes n’arrivait pas à tout traiter d’un coup. Voici ce que ça donne :

1000 ISBN en 5 fois

1er jeu

2e jeu

3e jeu

4e jeu

5e jeu

Nombre d’ISBNs trouvés

190

192

187

188

191

Nombre de couvertures retrouvées

102

141

118

124

129

Nombre de livres “feuilletables”

0

0

29

30

14

En comparant les écarts d’une colonne à l’autre (fonction écart-type d’Excel), on constate que pour contrôler seulement la présence des notices, 200 notices auraient été suffisantes. Mais j’ai bien fait d’utiliser mon échantilon de 1000 ISBN pour les couvertures et les feuilletages, car il y a de grandes disparités.

Conclusions :

  • Amazon contient 94,8 % de nos notices
  • Amazon peut proposer des couvertures pour 61,4% de nos livres
  • Amazon peut proposer 7,3% de nos livres en feuilletage

Ce qu’il faut en retenir ?

  1. Qu’après plusieurs étapes encore, je pourrai vous entretenir de la manière d’utiliser ces pipes-relais (par exemple : convertir un numéro de département en son nom, via la liste donnée sur Wikipedia comme source d’information).
  2. Que vous pouvez déjà tester votre propre catalogue pour voir si ça vaut le coup d’utiliser Amazon comme fournisseur de contenus enrichis : en entrant une liste d’ISBN dans ce pipe.
  3. Après examen de ce à quoi ressemble une page de résultat, je ne peux pas savoir si Amazon me fournira pour un ISBN donné un résumé et une table des matières. Mais je peux considérer (ou plutôt : je me résigne à me contenter de ce) que le feuilletage induit un résumé et/ou une table des matières.
  4. Que je produirai sans doute les mêmes outils pour les sites que je n’ai pas pu tester par API (pour cause d’API Key) : WorldCat, Google Books, …

En fait, j’ai déjà fait celui pour Google Books — vérification  de la présence de notice, couverture, et extraits. Mais à plusieurs reprises il a refusé de répondre après plusieurs requêtes : il a sans doute remarqué que les serveurs de Yahoo le bombardaient un peu trop de questions et que ça ressemblait à du hacking.

Bref, j’ai finalement réussi à l’utiliser, mais je vous préviens tout de même du problème. Voici les résultats

ISBN dans Google Books

1er jeu

2e jeu

3e jeu

4e jeu

5e jeu

Nombre d’ISBNs trouvés

185

184

187

189

186

Nombre de couvertures retrouvées

92

22

26

36

33

Nombre de livres avec extraits

70

22

26

34

33

Donc en % par rapport à notre collection, ça donne :

  • GBS a reconnu 93,1% de nos ISBN
  • GBS peut fournir 20,9% des couvertures de ces livres
  • GBS peut fournir des extraits pour 18,5%  de ces livres

Tableau comparatif GBS – Amazon

Amazon

Google Book Search

Nombre d’ISBNs trouvés

94,8%

93,1%

Nombre de couvertures retrouvées

61,4%

20,9%

Nombre de livres avec extraits/feuilletage

7,3%

18,5%

Le nombre d’ISBN reconnus est équivalent (alors que pour les seules nouveautés, GBS n’avait que 76% de nos notices). Amazon a beaucoup plus de couvertures disponibles, et GBS un peu plus d’ouvrages disponibles sous forme d’extraits. Quel service voudrez-vous privilégier ?

Pourquoi pas les couvertures chez Amazon et les enrichissements textuels chez Google ?

PS : pour ceux qui ne voient pas comment, d’une liste d’ISBN en ligne, produire des ISBN sur la même ligne et séparés par des tirets, une petite vidéo.