Sudoc-RSS 2 : il revient (et il est encore plus fort)

Souvenez-vous : j’avais créé avec Yahoo Pipes un générateur de flux RSS sur des requêtes dans le Sudoc. Je l’avais ensuite amélioré à destination des acquéreurs.

Pour l’utiliser, il fallait passer par un widget Netvibes ou installer un plugin de recherche spécifique (Sudoc-RSS) dans sa barre de recherche rapide.

Puis tout était tombé : Yahoo Pipes respectait désormais le contenu des fichiers robots.txt des sites web, lesquels fichiers autorisent ou interdisent l’indexation de leurs pages. Celui du Sudoc interdisait que les pages commençant par http://www.sudoc.abes.fr/ soient indexées.

IL revient !

Grâce à assistance.abes.fr, j’ai demandé le déblocage du fichier robots (qu’on enlève un “/” à la 2e ligne). Le 17 septembre 2009.

Voilà, le problème est résolu. J’ai cru comprendre que la modification du fichier Robots.txt posait de gros problèmes techniques qui a nécessité un appel à l’aide auprès d’OCLC. Mais comme je n’ai eu aucune explication détaillée, je serais bien en peine de vous expliquer ce délai.

Si bien que le plugin Netvibes (ainsi que le plugin de recherche rapide) sont de nouveau opérationnels. (Rq : pour installer la recherche rapide, vous installez d’abord l’extension Firefox Add to Search Bar, qui vous permet d’ajouter presque n’importe quel moteur de recherche à votre navigateur. Puis vous utilisez l’extension sur le widget Netvibes).

Mais il y a mieux

Si vous n’avez pas encore installé l’extension GreaseMonkey, c’est le moment.

Cette extension vous permet ensuite d’ajouter des scripts qui vont enrichir certains sites (vous choisissez vous-mêmes quels scripts installer).

Par exemple, après avoir installé GreaseMonkey, allez sur cette page et cliquez sur le gros bouton Install. Désormais, lorsque vous ferez une recherche dans le Sudoc, vous verrez cela :

Un lien au fil RSS de la recherche en cours

Pendant que vous y êtes, allez aussi sur cette page et installez le script. Cela vous donnera sur chaque notice détaillée du Sudoc un permalien “Lien vers cette notice”.

Ces deux scripts sont l’oeuvre de Symac, et je lui redis ici toute ma gratitude mon admiration mon adoration.


Sur les scripts GreaseMonkey utiles pour les bibliothécaires : dans Userscripts, cherchez donc des scripts sur des mots comme Worldcat, Wikipedia, Google Book Search, ISBN.

Une dernière remarque pour la route

Le #pype qui produit le fil RSS est assez lourd : l’affichage du flux prend donc un certain temps. Soyez indulgents : j’essaierai de voir si je peux l’alléger…

Petit script Sudoc

Il y a certainement plein de plate-formes innovantes en ce moment. Moi, ces jours-ci, je vous parle du Sudoc et d’Electre.

En février, je vous signalais comment faire un lien vers une notice du Sudoc, à savoir : en utilisant le PPN de la notice qui vous intéresse, PPN qui apparaît en tête de notice. La manipulation était un peu compliquée, mais pour ma part j’en ai un réel besoin (même si souvent je renvoie plutôt à WorldCat).

Juste avant l’été, @Symac a créé un petit script pour GreaseMonkey qui génère automatiquement ce lien dans la page.

Pour mémoire : GreaseMonkey est une extension Firefox. On lui injecte des petits “programmes” (des scripts) qui permettent d’enrichir ou de modifier certaines pages web.

Ce script retrouve dans les pages du Sudoc le numéro de PPN, et grâce à ce PPN génère une URL sous la forme http://www.sudoc.abes.fr/DB=2.1/SRCH?IKT=12&TRM={ppn} (où “{ppn}” est remplacée par le PPN en cours), et génère un lien cliquable comme ceci :

Donc voilà, je vous suggère d’installer le script en question (je ne vous suggère pas d’installer GreaseMonkey, je sais que c’est déjà fait).

Le Sudoc en RSS

Peut-être l’avez-vous remarqué, le pipe qui permettait d’avoir des fils RSS sur les recherches dans le Sudoc ne fonctionne plus.

Depuis quelques mois, Yahoo Pipes respecte les fichiers robots.txt des sites web. Ces fichiers permettent au propriétaire d’un site de réduire l’indexation qui sera faite de son site par les moteurs de recherche : par exemple en leur interdisant l’accès à certains répertoires, où en autorisant à un seul moteur cet accès.

Généralement, les sites web cherchent à être indexés. Mais le fichier robots.txt du Sudoc interdit toute indexation par tous moteurs de recherche.

Donc si vous avez vos entrées à l’Abes, je serais intéressé de connaître la personne à contacter pour demander une modification de ce fichier.

Sudoc RSS : petite mise à jour

J’ai rajouté un lien vers une recherche dans Moccam-en-ligne sur les listes de résultats par RSS dans le Sudoc.
Ca relance en réalité une recherche dans Amazon sur le titre, mais directement depuis Moccam, ce qui permet d’enrichir ainsi plus facilement son panier.
Cela dit, je n’ai pas encore vraiment fait de tests pour m’assurer de l’efficacité de la chose : la requête sur Moccam ne prend pas en compte les guillemets, ce qui peut rendre le nombre de résultats pléthorique, et je ne peux pas combiner ni avec l’auteur (impossible à récupérer dans les résultats du Sudoc) ni avec la date (champ non interrogable sur Moccam).

Un rebond vers Electre me semble en outre impossible, étant donné la technologie (ASP) utilisée par Electre. Cela m’exaspère profondément mais je ne peux pas y faire grand chose.

Par ailleurs (et c’est plus intéressant), je travaille à un script GreaseMonkey afin qu’en faisant une recherche directement dans le Sudoc, un lien vers le fil RSS correspondant apparaisse dans la page (bien meilleure solution que d’avoir un plugin de recherche spécifique).
C’est du JavaScript et j’ai encore quasiment tout à apprendre pour ce langage, mais le bout du tunnel est certainement proche !