Skip to content

Programme de contrôle automatisé des accès aux ressources en ligne

01/09/2014

Traduction d’extraits d’un article paru le 25 juillet 2014 dans Code4Lib : Getting What We Paid for: a Script to Verify Full Access to E-Resources.
Récupérer le code du programme

Elsevier - accès refuséAvec le nombre croissant de ressources en ligne dans les bibliothèques universitaires, il devient impossible de contrôler manuellement que l’accès à chacune d’entre elles a été correctement ouvert par le fournisseur. L’article en question passe un certain temps à démontrer l’intérêt d’automatiser une telle fonction. Je vous fais grâce de la traduction de cette introduction, en postulant que vous êtes tous convaincus de la chose. Et voici la traduction de quelques passages.

J’ai développé un script d’Access Checker aux ressources électroniques, un script Ruby qui automatise la vérification de l’accès à ces ressources. […]

En 2013, la revue Code4Lib a publié un article décrivant un outil baptisé Normac, qui comprenait un access checker fonctionnant sur les mêmes principes que celui décrit ici. […]

Les utilisateurs de cet Access Checker qui veulent vérifier l’accès à des plates-formes non encore supportées par l’outil peuvent
a)  créer leur propre version du script ; b) contribuer à l’évolution du script via Github ; ou c) me demander d’ajouter
la plate-forme souhaitée (et attendre que je trouve le temps de le faire). […]

Sur chaque plate-forme, la page d’accès à une ressource que le lecteur peut consulter contient une mention claire de son accessibilité : une icône verte, par exemple, ou un texte disant « l’accès à ce ebook est fourni par… » ou « Texte intégral ». Cette mention d’accès diffère d’une plate-forme à l’autre — et parfois même diffère d’un package à l’autre pour un même fournisseur. La présence de cette mntion (ou le code HTML qui lui correspond) est ce que l’Access Checker contrôle. […]

L’Access Checker est un simple script JRuby qui automatise l’accès à chaque ressource. On l’exécute en ligne de commande en mettant comme paramètres les fichiers en entrée et en sortie :

>jruby access_checker.rb urls_to_check.csv access_results.csv

L’Access Checker prend en entrée un fichier .csv qui peut contenir un certain nombre de colonnes (généralement, notamment, titre et identifiant de la ressource), et dont la dernière colonne doit impérativement être l’URL associée à ce titre. Toutes les URLs du fichier doivent concerner le même fournisseur [donc on exécute le programme pour chaque plate-forme indépendamment] […]

Quand on ouvre le script, celui-ci affiche la liste des plates-formes supportées par l’Access Checker. Il faut indiquer quelle plate-forme on veut contrôler. Le script vérifier le code HTML qui se trouve derrière chaque URL pour y trouver les chaînes de caractères attendues spécifique à la plate-forme spécifiée. Si la chaîne de caractère est trouvée, le résultat correspondant est indiqué.

L’Access Checker peut être amélioré en ajoutant la reconnaissance d’autres plates-formes, ce qui est assez simple à faire. Une fois que vous avez le code HTML d’exemples pour 1) une ressource avec accès au texte intégral ; 2) une ressource avec accès réservé ou aucun accès ; et 3) toute autre type d’erreur rencontrée sur la plate-forme en question que le rapport doit pouvoir identifier et signaler, vous inspectez le coude HTML pour reconnaître les mentions d’accès pour chacun de ces cas. La suite est triviale.

Liste des plates-formes actuellement reconnues :

Apabi
Alexander Street Press
Duke University Press (Highwire)
Ebrary
EBSCOhost
ScienceDirect
SAGE Knowledge
SAGE Research Methods
SpringerLink
SerialsSolutions
University Press Scholarship
Wiley Online Library

Récupérer le code du programme

Je vous laisse lire le reste de l’article si vous voulez plus de précisions sur la manière dont ça fonctionne (pour éviter les risques de rejet des connexions si trop de tentatives de clics successives, etc.) et des exemples d’utilisation.

2 commentaires
  1. 06/09/2014 08:55

    Bonjour,

    L’idée en soit est bien sur alléchante, mais tout de même quelques petites remarques restrictives :

    1/ les tests sont basés sur de la détection de chaine de caractères dans le code source html et donc très sujet à changements, d’où une maintenance du code de l’outil, pas nécessairement difficile et éventuellement mutualisable, mais à bien prendre en compte !

    2/ surtout pour les revues, le test ne se fait que sur la page d’accueil de la ressource, il ne rentre pas dans le détail d’accès en fonction de l’état de collection.

    3/ l’outil test une liste d’url – donc connues – sur une plateforme. Il ne permet pas de détecter de nouvelles ressources accessibles.
    (il peut détecter des sortants mais pas des entrants)

Trackbacks

  1. DOKELEK | Pearltrees

Les commentaires sont fermés.

%d blogueurs aiment cette page :