Skip to content

Faire exister son catalogue sur Google

05/01/2009

Nous nous étions demandés à une époque à Jussieu comment faire en sorte que Google référence les notices de notre OPAC.

L’objectif étant, si quelqu’un est à la recherche d’un document, qu’il tombe sur un catalogue de bibliothèque plutôt que sur Amazon.fr.

Mais finalement deux remarques émergent assez vite :

  • Certains Opac sont déjà connus de Google, et par défaut nous ne sommes pas tous égaux.
  • Est-ce une bonne idée de leur proposer un catalogue de bibliothèque plutôt qu’un site de vente en ligne ?

Les Opac sont déjà dans Google (ou presque)

Faites une recherche Google (ou une recherche Yahoo, avec la même syntaxe) sur :

site:http://urldevotrecatalogue.fr/
  • Pour la BIUS Jussieu et le SCD médical de Paris 6, on obtient 975.000 résultats (c’est l’opac HIP de SirsiDynix).
  • Pour le site de l’Ecole des chartes : 35200 (PortFolio de BiblioMondo).
  • Pour le Sudoc : 23000.
  • Pour le SCD de Lille 3 : 13100 (HIP)
  • Pour le SCD d’Angers : 8400 (Aleph d’Ex Libris)
  • Pour le SCD de Paris 3 : 6450 (Aleph)
  • Pour le site de l’Enssib : 3850 (PortFolio)
  • Pour le SCD Paris 5 (Aleph d’Ex Libris) :127.
  • Pour le SCD de Nice (Bookline d’Archimed) : 39
  • Pour le catalogue de la BnF (en excluant les notices que Google retrouve via Gallica) : 16
  • Pour le SCD de Lyon 2 (Loris) : 3

Je ne comprends absolument pas pourquoi Google a réussi à « entrer » dans notre catalogue et pas dans les autres. Il y a apparemment une grande inégalité même pour un logiciel identique.

Si quelqu’un a une explication ?…

Mais de toute façon là n’est pas vraiment la question. Il faudrait encore savoir pourquoi on veut être référencé par Google : est-ce pour être présent sur Internet, ou est-ce pour rendre un service à l’usager.

Etre présent sur Internet n’est pas une motivation honteuse. On a le droit de souhaiter des statistiques enviables, ne serait-ce que pour avoir l’impression que tout le temps passé à cataloguer les ouvrages, paramétrer les fonctions de recherche, améliorer l’ergonomie, etc. sert à quelque chose. On a le droit aussi de préférer dire à sa tutelle : nous existons, nous sommes novateurs, nous sommes moteurs — regardez !

Mais il me semble qu’il y a des manières d’exister plus légitimes qu’en voyant apparaître ses notices dans une recherche Google. Si on est spécialisé en chimie, il vaut mieux essayer d’exister dans les annuaires de sites, se manifester sur les forums (Facebook compris), et voir sortir ses dossiers thématiques bien placés lors d’une recherche Google sur un sujet traité (je sais par exemple que mon blog de numismatique est mieux classé que Jubil sur une recherche « Zotero » — de 4 rangs à présent, le 16/12/2008, dans la version française de Google).

Mais que le catalogue BIUSJ – SCDM soit en grande partie indexé par Google ne l’avantage pas sur les autres bibliothèques : à moins de chercher un livre particulièrement rare (j’y reviendrai), les résultats de l’Opac n’ont pas un assez bon Pagerank pour apparaître dans les 30 premiers résultats.

Pour mémoire, le Pagerank est la note attribuée par Google en fonction du nombre de liens pointant vers une page, et du propre Pagerank des pages contenant ces liens. Généralement, un site dont les liens proviennent de lui-même (comme un Opac, où un clic sur les mots-matières et les auteurs fournissent de nouvelles notices) ne lui permet pas d’obtenir un bon Pagerank. Donc il faudrait que des sites extérieurs, et bien notés, pointent vers notre catalogue.

Pourquoi le feraient-ils ?

Si bien que même si un Opac est bien indexé, il sera submergé par les centaines d’autres réponses qui le précèdent.

Exemple : Si je cherche sur Google Avant le big bang : la création du monde de Bogdanoff, le catalogue BIUSJ-SCDM est 45e (5e page de résultats). Peu de chances donc que le lecteur potentiel y accède.

Quel service pour le lecteur ?

Quand je cherche un livre directement dans Google, c’est que (alternatives cumulables) :

  1. je n’ai pas pensé à chercher dans un catalogue de bibliothèque
  2. je cherche des avis sur le livre
  3. je cherche à me procurer ce document

Pour les avis, peu de bibliothèques intègrent la possibilité de mettre des commentaires (là aussi, j’y reviendrai). Donc ce n’est pas là que l’internaute en trouvera — ce n’est donc pas lui rendre service que de mettre en avant les Opac dans les listes de résultats.

Pour se procurer le document : quelle est la probabilité que, si je navigue en internaute non identifié, Google me fournisse en tête de liste une notice issue d’une bibliothèque à laquelle je puisse avoir facilement accès. Alors qu’Amazon…

A la rigueur, on pourrait envisager un service façon Yahoo! local : votre moteur de recherche ne s’en vante pas forcément, mais il sait pertinemment dans quelle ville vous vous trouvez. S’il dispose d’une base d’adresses de bibliothèques associées à l’URL de leur site web, il pourrait faire remonter en tête de liste des documents issus du site web de la bibliothèque la plus proche de chez vous.

Ce n’est pas complètement impossible : Google a déjà une base de coordonnées de bibliothèques à sa disposition, avec le projet Google Scholar – Liens vers les bibliothèques.

Mais on pourrait envisager un fonctionnement plus simple : si Google reconnaît dans votre recherche un titre de livre, il propose un lien « Trouver dans ma bibliotèque » qui interrogerait un catalogue collectif, avec restrication géographique.

Pour cela, il suffirait que Google sache que c’est un livre que vous recherchez, et pas autre chose, afin de ne pas proposer des liens à tout bout de champ. Donc il vous faudrait lui spécifiquer que c’est un livre. Donc le plus simple, ce serait que l’internaute aille dans Google Recherche de livres.

Quelle surprise ! Ce lien existe déjà !

Google Book Search - Lien vers une bibliothèque

Finalement le monde n’est pas si mal fait.

Ce lien pointe, quand c’est possible et que Google vous a reconnu comme étant en France, vers le Sudoc. C’est bien — et c’est absurde. Ca prouve que l’ABES fait bien son travail, et ça prouve aussi que la BnF ne le fait pas : à quoi sert le CCFr si ce n’est à être présent, précisément à cet endroit-là ? Que deviennent les collections des bibliothèques municipales et de la BnF ?

Et comment une personne extérieure au monde universitaire va-t-elle pouvoir rebondir ?

Ce qu’on doit espérer pour l’avenir

Ce lien de Google Book Search vers le Sudoc, c’est précisément ce qu’il faut viser : un utilisateur de Google recherche un livre, le trouve, et se voit proposer un lien rapide lui permettant de localiser l’ouvrage dans une bibliothèque.

Ce dont il faut se désoler dans cette configuration, c’est que sur une recherche Google, Google Book Search soit si mal classé par rapport à Amazon, la Fnac, etc.

Il faut donc espérer :

  1. un meilleur classement de GBS sur une recherche Google généraliste (si si !)
  2. que le lien vers le Sudoc soit rapidement un lien vers le CCFr.
  3. que finalement le Sudoc comme le CCFr soient basculés dans WorldCat et qu’il n’y ait plus qu’un lien WorldCat (et que WorldCat signifie désormais pour tout internaute : le monde des bibliothèques)
  4. que chaque Opac intègre les commentaires faits sur ses ouvrages depuis Librarything et/ou WorldCat (mais par pitié, ne permettez pas à vos lecteurs d’intégrer des commentaires sur votre Opac et uniquement sur lui : personne d’autre n’en profitera !).
  5. que Google sache réellement aller au-delà de nos écrans de recherche pour indexer nos notices, tout en les laissant très mal « notées » (en fin de liste de résultats) sauf lorsqu’il s’agit d’un ouvrage rare (auquel cas les trois exemplaires conservés en France seront bien visibles dans la liste de 5 résultats). Pour l’aider en attendant, les DSI (diffusion sélective de l’information) peuvent pallier les difficultés techniques : pendant une durée limitée, les listes de nouveautés apparaissent sur un écran du catalogue, et chaque notice est consultable sans avoir à la rechercher. Il faut évidemment pour cela n’avoir aucune sélection à faire, mais seulement des clics successifs (comme ceci et non comme cela). Au moins les nouveaux titres sont référencés, à défaut des anciens — et Google (ou Yahoo) accceptera peut-être même de rebondir sur le nom de l’auteur ou sur l’indexation sujet.

Faire connaître son catalogue à Google : les sitemaps

Toute la doc de Google à ce sujet est là.

Google propose de déclarer soi-même son site, en lui fournissant un fichier texte listant toutes les URL (une URL par ligne), à condition de n’avoir pas plus de 50.000 URL à déclarer.

Si on dépasse les 50.000 documents, il faut donc créer autant de fichiers textes que nécessaire, plus un autre fichier listant les fichiers précédents. C’est-à-dire que si on a 200.000 ouvrages, on crée 4 fichiers texte, que l’on met sur un serveur. Puis on dépose sur le serveur un 5e fichier donnant les URL des 4 fichiers précédents. Et enfin on fournit à Google l’URL de ce 5e fichier.

Cela dit, ne pas oublier que ce qui compte ici, c’est que les notices de livres rares soient indexées. Donc si on peut limiter l’export à un fonds spécifique (un fonds ancien, par exemple, ou une bibliothèque spécialisée, c’est mieux). Avez-vous 50.000 livres rares ?

Comment générer la liste des URL de ses notices ? Cette page de l’OCLC vous explique comment, à partir d’une information comme le numéro de notice ou l’ISBN, générer une URL vers votre catalogue (selon qu’il s’agit d’Aleph, de HIP ou d’autre chose). Il vous faut donc extraire de votre base l’intégralité des ISBN et des ISSN, par exemple, pour les transformer en URL.

1ère remarque : il est possible de créer des fichiers XML plus complexes, rendant compte à la fois du contenu des pages à indexer et de leur structure (plus quelques autres infos). Je laisse les personnes intéressées le découvrir par elles-mêmes.

De cette manière, vous aurez révélé à Google l’intégralité de votre catalogue à un instant précis. Quid des nouveautés ? Le mieux est d’avoir un module de DSI qui diffuse sur internet une page actualisé des nouvelles acquisitions, que Google saura traiter sans votre aide. Sinon, il faut prévoir une mise à jour périodique.

2e remarque : comme le catalogue BIUSJ & SCDM était plutôt bien indexé par Google (cf. plus haut), je n’ai pas eu à faire ces manipulations (merci d’ailleurs à Christian pour ce qu’il m’a appris à leur sujet). Diverses difficultés peuvent donc surgir que je n’ai pas eu à affronter.

3e remarque : il vous faudra prouver à un moment ou à un autre que vous êtes bien le propriétaire du site, soit en déposant un fichier sur le serveur de votre Opac, soit en intégrant à une page de l’Opac du code JavaScript. Dans les deux cas cela peut poser des difficultés

Pour terminer : une anecdote

L’idée de ce billet m’est venue d’un épisode arrivé dans les derniers jours passés à Jussieu. Nous avons reçu le mail d’une chercheuses française, travaillant désormais aux Etats-Unis, et qui pour une recherche sur son nom (entre guillemets) était tombé en20e résultat sur notre catalogue (pour sa thèse soutenue quelques années auparavant). Elle s’en est insurgée au nom de la loi Informatique et Liberté.

Nous avons eu besoin de quelques échanges de mails pour comprendre que ce qui l’indignait, c’était la présence de sa date de naissance dans la notice de sa thèse, information relevant de sa vie privée [précisons cette date de naissance est indispensable en cas d’homonymie — mais qu’il n’y en avait pas dans le cas présent].

Nous avons donc retiré cette mention.

Il va de soi que cette même recherche nous fournissait son adresse mail, son lieu d’exercice (elle a un profil LinkedIn), et – sauf s’il y a homonymie – un compte Facebook. Je parierais sur une homonymie. Mais comme j’ignore sa date de naissance, je n’en sais rien.

Etre référencé par Google, cela pose aussi des problèmes.

Advertisements
5 commentaires
  1. 07/01/2009 14:15

    Excellent billet dont je partage les conclusions. Au delà de Google, c’est vrai que ce qui nous manque en général dans les bibliothèques c’est une démarche de référencement qui peut être très fine (certaines bibliothèques indexent leurs ressources sur wikipédia, ce qui est très efficace).

    En fait, au delà de ce travail fin, l’idée serait effectivement que le référencement soit géré à un niveau global : dans wordlcat, puisqu’il est prévu que le sudoc y soit basculé bientôt (voir ici : http://www.bibliobsession.net/2008/10/23/vers-un-catalogue-mondial-des-bibliotheques-et-moi-et-moi-et-moi/ : ce qui permet de faire apparaître en premier les résultats comportant la notice enrichie de worldcat et après seulement le lien vers les catalogues locaux.

Trackbacks

  1. Le minimum pour un Opac (en plus de tout ce qui est évident) « Encore un biblioblog…
  2. Bibliobuzz de janvier 2009 | MEDIATHEQUE2010.FR - PROSPECTIVES
  3. PabloG » Blog Archive » links for 2009-02-23
  4. bibliobsession by claudedechauny - Pearltrees

Les commentaires sont fermés.

%d blogueurs aiment cette page :