Gérer une base de signets (3/4)

Je reprends doucement la série de billets consacrés à la gestion d’une base de signets. Celui-ci, court, est consacré aux outils de gestion.

Je ne parle pas ici du logiciel utilisé, mais, dans un contexte de gestion décentralisé (“correspondants Signets” dans les sections), ce dont les responsables de signets souhaitaient disposer en termes de :

  • fonctionnalités pour gérer la base, ou “leur” base (càd la sous-partie du tout qui était gérée par eux)
  • renseignements sur la base à un temps T.

Cette liste n’est que le résultat de plusieurs mois de pratique, avec des ajustements successifs. Nous avions une base XML dont je pouvais extraire les données pour les traiter de la manière que je voulais.

Donc voici ce dont nous avons constaté avoir besoin :

  • une extraction de l’intégralité des URL stockées dans la base
  • une vérification automatique des liens
  • un filtre par gestionnaire (pour que dans l’interface de gestion la personne puisse n’afficher que les signets qu’il gérait)
  • un champ de date de vérification des notices + un champ de date de modification des notices

Des rapports fournissant les informations suivantes :

  • liste des tous les signets, par gestionnaire, avec Titre, Auteur, URL
  • liste de tous les signets (toujours triés par gestionnaire, comme les rapports suivants) avec Titre, Auteur, Description, Sujet
    Oui, j’éditais deux rapports différents, pour éviter des tableaux à 10 colonnes, vite illisibles. Dans cette seconde liste, les gestionnaires visaient avant tout l’homogénéisation des pratiques. La première liste est surtout là “pour info”.
  • nombre de signets par section

ces trois premiers rapports servaient à chacun à comparer sa propre base (en quantité et en contenu) avec les autres.

  • liste des signets triés par section puis (pour chaque section) par date de dernière modification (les plus anciennement modifiés en tête = ceux à revoir d’abord).
  • liste des URL stockées plus d’une fois dans la base (doublons, triplons, etc.)
  • liste des URL trop longues
    Ce dernier point est intéressant : la base de signets est interrogeable par moteur de recherche, et affiche une liste de résultats. Nous avons choisi de rendre visible l’URL de chacun des signets (plutôt que de rendre le titre cliquable, pointant vers le site décrit). Donc nous donnons à voir l’URL. Celle-ci doit donc être (autant que possible) simple. Cela a permis de réfléchir à la structure des URL, notamment quand elles contiennent un identifiant de session. Exemple : http://www.scirus.com/srsapp/ et http://www.scirus.com/ pointent vers la même page. Donner à voir à l’utilisateur la “version courte” est toujours un service à lui rendre.
    Donc je générais un rapport qui listait les signets dont l’URL dépassait 50 caractères (évidemment, c’était parfois nécessaire).

Je donne cette liste telle quelle, sans échelle d’importance : si vous avez à en gérer une, vous saurez tout seul attribuer ces degrés.

Selon l’outil utilisé, notamment si c’est une base locale ou un gestionnaire en ligne de favoris (du type Delicious), la réponse à ces besoins sera plus ou moins complète, et surtout elle se fera par des moyens différents.

Mais il est évident que la possibilité ou non d’obtenir ce genre de manipulations et d’informations n’est pas l’argument ultime pour choisir un outil, puisque l’ergonomie, la simplicité d’utilisation et de maintenance, comme la possibilité d’intégration dans l’ensemble des outils de la bibliothèque, sont primordiaux.

Mais je voulais tout de même donner cette liste pour information. Puisque, comme je le rappelle (encore !), ceci n’est qu’un retour d’expérience et non une réflexion approfondie sur cette question.

La liste intégrale des URLs

J’y tiens beaucoup, d’une manière ou d’une autre, il vous faut :

  1. pouvoir extraire l’intégralité de vos URL
  2. pouvoir extraire régulièrement les nouvelles URL et elles seules.

Pourquoi ? Pour ça : pour générer à partir de vos signets un moteur de recherche en texte intégral sur une partie du web sélectionnée par vous.

Il me semble qu’avoir une base de signets est en soi légitime et précieux (si jamais celle des autres ne vous satisfait pas). Toutefois pour l’usager la notion de base de signets, de notices de sites web, peut paraître très étrange, sinon incompréhensible.

Si bien que si vous pouvez lui proposer, à un endroit ou à un autre, une recherche en texte intégral dans les sites que vous avez sélectionnez pour lui, c’est un type de contenu (et un mode d’interrogation) dont il comprendra peut-être mieux l’utilité.

Sur Jubil, est proposée

  • une interrogation de la base de signets en recherche simple (unifiée) sur la page d’accueil,
  • en recherche multi-ressources, 4 moteurs thématiques intitulés “Le web de la Physique-chimie”, “Le web des sciences de la Terre”, “Le web de la médecine” et “Le web des Math-Info”.

Je ne prétends pas que la terminologie soit pleinement satisfaisante, non plus que l’emplacement de ces moteurs (un peu discrets), mais au moins le service existe, il est disponible.

Ces 4 connecteurs correspondent à 4 moteurs Google CSE, dans lesquels nous avons chargé des extractions partielles (filtres par sujets).

Il faut ensuite actualiser ces moteurs avec les sites nouvellement entrés.

Il y a le problème des signets que l’on supprime (chaque gestionnaire supprime des sites de la base de signets, alors qu’une seule personne gère le moteur Google : problème de communication à prévoir), et qui me laisse penser que le fonctionnement le plus simple serait de vider chaque moteur pour le recharger complètement.

Malheureusement Google CSE ne permet de supprimer les sites que 20 par 20 : l’élimination complète risque d’être fastidieuse.

Bref, sans avoir de solution complètement satisfaisante pour une gestion parfaite de ce service, il me semble que c’est un vrai service à rendre à nos lecteurs.

PS : si vous utilisez des services comme Delicious, et que vous ne savez pas comment en extraire la liste des URLs brute pour l’injecter dans un moteur Google nouvellement créé, je vous ferai une petite vidéo.

PS 2 : à vous ensuite de mener une réflexion sur l’intégration d’un tel service. Ce genre de moteur peut être aussi utile simplement en interne, quand vous êtes dérangé sollicité en service public sur une question de chimie à laquelle vous ne comprenez rien.  Une rapide recherche dans un moteur thématique peut rendre de grands services ! Mais si vous demandez à votre webmaster d’intégrer le formulaire de recherche quelque part dans votre site web (de préférence au bon endroit), c’est peut-être encore mieux.

PS3 : à Jussieu, nous nous étions posé la question de supprimer carrément l’interrogation de la base de signets, pour ne proposer que la recherche en texte intégral. Finalement nous y avions renoncé, je ne sais plus pourquoi.

Gérer une base de signets (2/4) : une politique documentaire

J’ai involontairement suscité un effet d’annonce avec le premier billet, et je crains que la suite ne soit pas à la hauteur des attentes. Donc acceptez d’avance mes excuses. Cette série de 4 billets est avant tout un retour d’expérience sur ce qui avait été mis en place et préconisé pour la base de signets de Jubil, le portail documentaire de l’UPMC.

Ce portail contient une base de 1200 signets environ (dont ceux du Cadist en sciences de la Terre). Cette base est interrogeable dès la page d’accueil, en même temps que les autres ressources des bibliothèques (collections imprimées, revues en ligne, e-books et pages du site). Sa gestion est éclatée entre des “correspondants Signets” en sections, les sections étant à la fois disciplinaires (mathématiques, informatique, etc.) et par niveau (L1-L2, L3-M1, M2-D).

Outre la recherche simple par mots-clés, il est aussi possible de naviguer dans toutes les collections en ligne (signets, e-books, revues en ligne et bases de données) par arborescence thématique : 13 disciplines scientifiques définies (dont 4 uniquement pour la médecine), chacune contenant entre 10 et 20 spécialités.

Ces disciplines et spécialités servent aussi à classer les nouvelles acquisitions papier et en ligne. Donc leur nombre et leur dénomination doit correspondre à l’ensemble des documents recensés.

Pour les signets spécifiquement, nous avons aussi désigné 10 types de sites web, dont la liste est certainement insatisfaisante et contestable.

Tout ceci pour vous permettre de mieux comprendre ce qui suit, dans la définition qui en a découlé d’une “politique documentaire” autour de la base de signets.

Par “politique documentaire”, j’entends la prise en compte de la base comme d’un fonds spécifique, où les “documents” ont une raison pour y être, et soumis à certaines règles de cohérence :

  • vérification de la couverture des collections
  • complémentarité entre sections
  • dédoublonnage
  • désherbage

1. Définition d’une politique documentaire

C’est une nécessité : il s’agit d’assigner un rôle et un contenu plus ou moins flou à cette base :

  1. vient-elle uniquement en renfort du site web, qui lui-même mentionne de nombreux sites (dans ses tutoriels, ses supports de formation, etc.)
  2. intègre-t-on les questions d’actualités, ou bien veut-on un contenu plus pérenne ?
  3. s’adresse-t-on aux étudiants ? aux enseignants ?
  4. intègre-t-on les cours d’autres universités (problème politique !)
  5. comment ma base de signets se positionne-t-elle par rapport aux bases nationales ?

Ce dernier point est intéressant : cela a-t-il encore un sens de créer une base de signets locale, alors qu’il y a déjà ceux de la BnF, ceux du Cerimes/Abes, ceux de tel ou tel Cadist ?

  • Est-ce que je vais profiter du contenu de ces bases existantes pour enrichir la mienne (en reprenant leurs notices, ou presque) ?
  • Est-ce que mes signets seront exclusivement du complément à ces bases ?
  • Est-ce que je vais créer une rubrique de signets intitulée “Signets” et référençant ces bases ?
  • Est-ce que je vais proposer un formulaire de recherche sur mon site vers l’une de ces bases ?
  • Est-ce que je ne vais pas renoncer simplement à monter une base de signets ?
  • Est-ce que je vais d’emblée choisir un outil de gestion de base de signets, qui me permettra de moissonner l’une ou l’autre de ces bases, pour proposer une recherche unique dans une vaste collection de signets où je n’aurai enrichi qu’une partie minime ? [cette question de l'outil sera l'objet du 4e billet]

2. La découverte de nouveaux sites

J’ai toujours eu le sentiment que trouver de nouveaux sites à signaler n’était jamais vraiment un problème : les collègues furetaient sur Internet, dans les revues de vulgarisation scientifique, etc. mais n’étaient jamais à court d’idée pour créer de nouvelles notices.

Eventuellement, ils étaient à court de temps parce que l’alimentation de la base n’était jamais définie comme une priorité.

En revanche il est plus difficile, quand on gère un certain nombre de signets, d’en conserver une vision cohérente pour lui donner un sens. C’est donc là-dessus que je me suis davantage penché.

J’avais tout de même donné trois critères complémentaires, pour éviter que l’alimentation de la base soit tout à fait le fruit du hasard des rencontres :

  1. On peut enrichir la base en fonction des collections de la bibliothèque (utilisation du plan de classement)
  2. On peut l’enrichir en fonction des programmes d’études (en allant chercher sur le site de l’université les sujets d’études ou les pôles sur lesquels elles veut mettre l’accent)
  3. On peut l’enrichir en fonction de l’actualité (que propose ma bibliothèque en terme de signets sur l’épidémiologie en général, et la grippe porcine/mexicaine en particulier ?)

3. La couverture des collections

Revenons au cas de Jubil.

Quoique l’accès par sélection d’une discipline et/ou d’un type de site soit certainement très minoritaire pour l’utilisateur, elle permet de vérifier régulièrement que toutes les cases sont remplies :

Si nous avons défini une spécialité Biologie > Biologie moléculaire, celle-ci contient-elle des signets ?

1. Si non

  • Dois-je remplir la “case” avec des signets, ou bien ce n’est pas pertinent (la rubrique restant pertinente pour les autres types de ressources ?
  • Dois-je faire supprimer la spécialité (qui avait été définie a priori et se révèle non pertinente à l’usage) ? ou la regrouper avec une autre, sous une nouvelle appellation ?

2. Si oui

> Combien ? S’ils sont peu nombreux, faut-il

  • trouver de nouveaux sites sur le sujet ?
  • mieux indexer les signets existants (par exemple des sites plus vastes, portant sur plusieurs aspects de la biologie) ?
  • décréter qu’il y a effectivement peu de sites sur ce sujet ?

> S’ils sont nombreux, faut-il

  • en désindexer ?
  • en supprimer ?
  • estimer que tous les sites sont légitimement dans la base

Mais qu’est-ce que cette légitimité ?

Il ne suffit pas que le site soit intéressant, structuré, riche, mis à jour régulièrement. Il faut encore que le “correspondant Signets” le décrive en imaginant à quel profil d’internaute il s’adresse : étudiant, prof, chercheur ? débutant dans un domaine ? cherchant de l’actualité dans sa discipline ? etc.

Voyez cette recherche : je m’intéresse au tableau périodique des éléments (de Mendeleïev) pour avoir un site riche en contenus qui ne se satisfasse pas de m’en reproduire l’image brute.

Tableau périodique des éléments. Image Wikimedia

Tableau périodique des éléments. Image Wikimedia

Jubil recense 6 signets : six sites référencés dans la base comme fournissant de la documentation autour de ce tableau.

En tant qu’utilisateur, je vois ces 6 sites, et je n’ai aucun moyen de savoir a priori

  • pourquoi autant de sites, s’ils sont redondants, ont été référencés dans cette base ?
  • lequel va le plus m’intéresser ?

Donc si on définit des doublons, non comme deux notices d’un même ouvrage, mais comme deux sites traitant de la même chose, il faut dédoublonner,

  • soit en supprimer une des deux notices
  • soit en explicitant la différence entre les deux sites, et pourquoi les deux méritent, à des titres différents, d’être dans cette base.

Ainsi, sur cette requête (recherche “Pubmed”), j’obtiens à la fois un lien vers Pubmed, ainsi que différents tutoriels dont la description me permet à peu près d’en saisir d’emblée les différences, et d’en déduire celui qui m’intéressera le plus.

4. Le désherbage

Il faut revoir périodiquement chacun des signets, et se reposer à chaque fois la question de la légimité de sa notice en l’état. La conclusion d’un tel examen peut être :

  • sa confirmation telle quelle (le site n’a pas changé, donc sa description ne change pas) –> se demander d’ailleurs si un site qui ne bouge pas a sa place dans la base (ce peut être le cas : le CCFr, par exemple).
  • sa mise à jour, en tenant compte à la fois du contenu du site lui-même (qui a changé depuis la dernière fois) et du contenu de la base de signets, qui a également changé. Car le signet apparaît toujours dans une liste de résultats, en contexte — et il est difficile mais indispensable de prévoir ce contexte : quelles recherches vont amener l’apparition de ce signet ? et si j’effectue cette recherche, quels seront les autres signets ?
  • sa suppression –> éventuellement son remplacement par un nouveau site, plus légitime.

J’insiste beaucoup sur une question très prosaïque, très comptable, mais qui me semble indispensable : combien de signets suis-je capable de gérer ?

5. Définir un nombre de signets “idéal” pour ma base

Cela paraîtra peut-être ridicule à certains a priori, mais j’y tiens beaucoup :

  • comme tout signet doit faire l’objet d’une révision régulière (ou toute la crédibilité de la base en pâtit)
  • comme je dispose d’un temps limité chaque semaine pour gérer cette base

alors il est inconcevable que je définisse mon travail comme un simple enrichissement de la base. Et pour me donner à la fois les moyens de revenir sur les anciens signets + en créer de nouveaux, je ne doit pas dépasser une certaine masse critique.

Je vous propose la démarche suivante pour définir cette taille critique. Elle dépend de trois variables :

  1. Quelle est la périodicité raisonnable pour revenir sur un signet ?
  2. Combien de temps puis-je consacrer à la gestion de ma base chaque semaine ?
  3. Combien de minutes je passe à revoir un signet existant (le site lui-même + la notice existante)

Dans mon exemple, on va dire que je considère qu’il faut revenir sur un signet tout les 4 mois [ce nombre dépendra de la nature des sites que vous indexez, et de votre base en général : voulez-vous faire des liens sur l'actualité, ou référencer seulement des organisations internationales ?]

Et imaginons que je puisse consacrer 1 heure / semaine à la gestion de ces signets.

Cette heure sera consacrée pour moitié à la reprise d’anciens signets, et pour moitié à la recherche et création de nouveaux signets1. Donc je passe 30 minutes par semaine à revoir les signets existants.

Si j’ai besoin de 6 minutes par signet, je “révise” 5 signets par semaine.

Donc en quatre mois (4 mois = 16 semaines), j’aurai revu 5*16 = 80 signets

Comme il me faut revoir l’intégralité de ma base sur 4 mois, celle-ci ne doit pas excéder 80 signets.

Ce mode de calcul donne toujours des chiffres assez faibles : en effet nombreux sont ceux qui, dans leurs favoris (sur leur navigateur, sur Delicious ou ailleurs) ont plus de 80 signets. Mais il s’agit là d’une base qui a une autre visibilité que vos favoris.

L’expérience m’a montré que :

  1. on n’arrive jamais à consacrer 1h/semaine à la gestion de la base
  2. il faut plus de 6 minutes pour revoir un signet de manière satisfaisante

Donc en réalité il en faudrait moins que cela.

Conclusion

C’est tout ! Le prochain (billet 3/4) doit porter sur les outils nécessaires aux gestionnaires de la base pour pouvoir faire confortablement tout ce que je viens de décrire…

———————————

1. Notez au passage que cela implique d’avoir des notices comportant un champ “Modifié le …”, ou de tenir à jour sous Excel la liste des signets mis à jour.

Gérer une base de signets (1/4)

Ce premier article d’une série de quatre ne vise pas à proposer une solution technique (pour une fois !) à la gestion d’une base de signets, mais plutôt à donner un ensemble de principes qui relèvent plus de la politique documentaire.

La politique documentaire, je l’avoue,  n’est pas vraiment mon rayon, mais comme j’ai eu la responsabilité d’un groupe de “Gestionnaires de signets” à l’UPMC, j’ai eu l’obligation d’apporter des réponses à un certain nombre de questions.

Principes de base :

  • Une base de signets est différente d’une liste de sites sur une page web (ou plusieurs pages web)
  • Elle ne servira pas souvent si on ne la met pas dans un moteur de recherche commun
  • Elle doit faire l’objet d’une politique documentaire, en définissant par exemple si doivent/peuvent être signalés :
    • des sites “de référence”
    • de petits sites
    • des sites événementiels
  • Comment définir sa base de signets dans le paysage national, voire international : comment exploiter ceux du Cerimes-Abes, ceux de la BnF, etc.

Principe 1 : Une base de signets est différente d’une liste de sites sur une page web (ou plusieurs pages web)

Une base de signets est n’existe pour l’usager que comme une liste de résultats obtenue suite à une requête. Cela signifie par exemple qu’il ignorera a priori la logique de la base (complétude, domaines couverts, etc.).

Il est déjà passé par Google avant : il faut donc que votre site ait une raison d’être là en complément de Google, par exemple pour l’une ou plusieurs des raisons ci-dessous :

  • il est incontournable, et ne pas le mettre dans votre base serait ridicule
    Attention toutefois à cette logique : sur une page web listant des moteurs de recherche web, ne pas mettre Google serait compris comme étant de l’anti-googlisme primaire. En revanche créer une notice pour Google dans une base de signets serait inutile. Même chose pour des sites auxquel l’usager penserait sans vous : Pôle Emploi, SNCF, etc.
  • vous le “validez” comme ayant un contenu scientifique adapté aux besoins de vos usagers
  • il propose des outils particulièrement intéressants, difficiles à repérer en passant par Google ou même une fois sur le site (donc il faut décrire ces outils)
    Par exemple Google Maps peut avoir sa place dans une base de signets, même si vous supposez que votre lecteur connaît déjà son existence. Mais vous pouvez lui en “révéler” des usages intéressants auxquels il n’aurait pas pensé, par exemple en terme de collaboration autour d’informations géolocalisées.
    Idem, vous pouvez indiquer le site du CNRS en précisant pourquoi vous le mettez (donc il vous faut une raison)

J’ai tendance à préférer le langage naturel pour décrire les sites web (pour être plus clair : à éviter le Rameau), mais je ne vais pas me lancer dans un débat là-dessus. Cela dit, une double indexation est intéressante : indexation sujet (fine, redondante) et une classification, permettant un autre mode d’accès ressemblant plus à une promenade dans les rayons.

La description du signet doit utiliser les termes qu’utiliserait l’internaute s’il cherchait ce genre de sites, pour la raison que vous avez imaginé. Par exemple s’il cherche des sites d’actualités scientifiques, ou des blogs de philosophes, il faudrait que “philosophe” apparaisse dans la notice aussi bien que “philosophie”, et le mot “blog” devrait y être. Si possible, trouvez un moyen systématique pour faire savoir que tel site a un fil RSS (cela dit, de moins en moins de sites n’en proposent pas, donc je me demande si cette consigne est toujours pertinente).

La classification envisagée, si elle permet une navigation spécifique dans la base, doit être pragmatique : elle peut s’appuyer sur une classification existante, mais en évitant les rubriques vides (parce que sur un sujet donné, il existe des bouquins donc le thème est présent dans la Dewey, mais aucun site web) et les rubriques surpeuplées. Cela dit, une telle situation (des vides et des pleins) peut entraîner une réflexion sur la politique documentaire autour de la collection (cf. 2e billet, à venir).

Principe 2 : un moteur de recherche commun

Je précise d’abord deux choses :

  1. qu’une bibliothèque dispose de signets me semble une évidence : nous revenons toujours aux mêmes sites, nous avons besoin d’en recommander en appui à nos affirmations, et pour éviter d’avoir à tout réécrire. Par exemple pour un tutoriel à telle ou telle base de données, soit je trouve ce tutoriel en ligne et je l’indique dans mes signets, soit je suis obligé de le rédiger moi-même.
  2. Une base de signets est beaucoup plus facile à entretenir, mettre à jour, etc. — bref à rester pertinente — qu’un ensemble de pages où se perdra l’internaute.

Donc dans ce contexte la base de signets est entourée de ressources plus visibles qu’elle, essentiellement :

  1. le catalogue des collections imprimées (pardon : physiques, car il y a les CD-ROM, les DVD, etc.)
  2. la liste A-Z des revues en ligne
  3. le site web

Il me semble évident qu’il faut viser à avoir un moteur de recherche commun pour toutes ces ressources :

  • pour l’internaute, il est incompréhensible d’avoir d’un côté le Web of Science, moteur payant (donc liste A-Z), et de l ‘autre OAIster, Scitopia ou Google Scholar.
  • les signets référençant des tutoriels viennent en appui des tutoriels présents sur le site, donc une recherche commune site-signets est utile.
  • si l’internaute cherche Pascal (la base de données), lui proposer à la fois une notice de la base avec URL, et un renvoi vers un tutoriel en ligne, c’est un service intéressant.
  • l’internaute ne pensera pas que la bibliothèque peut lui recommander des sites, et ne viendra jamais exploiter la belle base de signets qu’on a faite pour lui. Donc tout ce travail perdu…

Sur ce dernier point, on peut aussi considérer que la base de signets est une commodité avant tout interne (notamment trouver une info rapidement en salle de lecture quand un étudiant chimiste vient vous chercher des noises, et que vous ignorez ce qu’on peut trouver sur le web dans son domaine), et que toute consultation par l’internaute est du “bonus”. Il faut alors y consacrer un temps de travail moindre, évidemment.

Une collection comme une autre

On voit déjà se dessiner un principe : la base de signets est une collection comme une autre, qui doit faire l’objet d’une réflexion autour de son contenu, d’une perception cohérente — et notamment d’une personne qui en aura une vision synthétique d’ensemble, au-dessus des responsables de son enrichissement.

Voici les 3 autres billets prévus :

  1. Gérer une base de signets (2/4) : grosso modo, ce devrait être la notion de politique documentaire
  2. Gérer une base de signets (3/4) : quels outils le webmaster doit-il espérer pouvoir fournir aux personnes qui gèrent les signets (car la gestion en est généralement décentralisée) ? càd quelles extractions de données, stats, etc.
  3. Gérer une base de signets (4/4) : quels outils (logiciels) pour tout ça ?

Pas de calendrier pour le moment…