Avec Google Scholar, quel besoin des autres bases bibliographiques ? (2)

Cf billet précédent

Il faut accepter un premier écueil : la formulation précédente comporte deux exigences, la rapidité et la pertinence. Le syndrome Google nous a habitué à faire prévaloir la rapidité sur la pertinence. Cette rapidité s’incarne dans les produits Google par quatre aspects :

  1. Rapidité d’accès. Pour accéder à Google Scholar, je vais sur ma page d’accueil (Google) et je cherche “Scholar”. Si à l’inverse je veux interroger la base d’articles scientifiques Pascal, la recherche Google ne me donnera rien, et il me faut d’abord accéder au site de ma bibliothèque pour obtenir l’URL de Pascal pour ma bibliothèque.
  2. Rapidité de prise en main. Tous les produits Google se ressemble (du moins par la mise en page, ce qui donne d’ailleurs l’illusion ravageuse que l’interrogation de Google Scholar peut se faire comme celle de Google).
  3. Rapidité d’affichage. La simplicité des listes de résultats Google fait que les listes de résultats sont immédiat, sans qu’on soit jamais à se ronger les ongles devant l’écran. On ne peut en dire autant de la nouvelle interface de Pascal, OvidSP

    Copie d'écran Pascal sur OvidSP

    Copie d'écran Pascal sur OvidSP

  4. Rapidité d’accès aux articles : les bases d’articles payantes proposent un certain nombre de liens (vers le résumé, la notice complète, le plein texte, les articles associés, les articles du même auteur, etc.), avec une mise en page et une clarté plus ou moins heureuse. Google Scholar reproduit ce qui existe pour Google : pour chaque résultat, il y a quatre à six liens proposés, mais le seul réellement visible est celui vers l’article (ou, plutôt : le plus souvent il pointe vers l’article).

Si on favorise le critère de rapidité, Google Scholar est certainement légitimement en tête. Pourtant il est évident, que, à condition de s’en servir suffisamment souvent pour y être à l’aise, les autres bases deviennent à peu près aussi “rapides”. Mais cette condition n’est pas négligeable. Deux acteurs jouent de concert : les éditeurs de bases bibliographiques, qui cherchent de plus en plus à “faire du Google”, et les bibliothèques, qui en proposant un accès distant (par proxy) rendent les bases accessibles depuis n’importe où, et non plus seulement depuis un nombre limité d’ordinateurs, accessibles aux heures d’ouverture.

La rapidité, un faux problème

En fait, il me semble que les éléments ci-dessous laissent de côté la nature du public visé. C’est pourquoi j’ai beaucoup insisté sur ce point.

Le public visé, c’est : le chercheur, qui est spécialiste dans son domaine, et qui l’est pour des années (si Dieu lui prête longue vie).

Le chercheur lui-même a donc tendance à l’oublier, mais, théoriquement, il devrait lui-même admettre qu’il lui suffit de mettre l’URL d’une base de données dans ses favoris, et de se familiariser en une vingtaine de minutes à la plate-forme.

Une vingtaine de minutes, c’est généralement largement suffisant si on accepte l’idée que la recherche n’est pas “intuitive”, qu’elle est spécifique, et que la comprendre mérite un petit détour par le guide ou l’aide en ligne. Les besoins plus poussés qui nécessiteraient plus de vingt minutes viendront en leur temps.

Cela signifie que lors de la première connexion, il ne faut pas arriver avec un sujet à documenter, mais avec le projet de comprendre la base de données : ce qu’elle contient, comment elle doit être interrogée, comment sont organisées les listes de résultats, etc.

Cela élimine les deux premiers arguments de rapidité (d’accès et de prise en main).

Sur la rapidité d’affichage de l’interface, ça dépendra évidemment des sites. Certaines bases sont très rapides (surtout lorsqu’elles sont sobres), d’autres moins (mais je ne dénoncerai personne ici).

Concernant la rapidité d’accès aux articles, c’est encore un faux problème. Selon moi (et je parle en tant que chercheur, historien, et non en tant que bibliothécaire), la recherche de documentation doit s’effectuer en deux temps distincts :

  1. Je cherche les références à des articles (entre 1 et 3 cinquièmes du temps que je veux consacrer à rassembler de la doc)
  2. J’analyse la liste des articles que j’ai trouvés, et je les trie pour déterminer dans quel ordre il convient de les lire : les articles fondateurs (les plus anciens), ou les articles novateurs (les plus récents) ? etc.

Donc proposer un lien direct vers l’article, au moment où je fais une recherche par sujet, donc au moment où je découvre l’existence de l’article (différent du cas où je cherche à consulter un article précis), c’est un exécrable faux ami pour l’efficacité (pertinence + rapidité) de ma recherche.

Qu’est-ce qu’une bonne base de données ?

Soyons lucides : les chercheurs (surtout ceux qui démarrent, les doctorants notamment) utilisent de plus en plus Google Scholar. Le plus souvent pour les raisons de rapidité mentionnées plus haut.

Selon moi ils ont tort, et ce pour une unique raison au moins : une bonne base de données doit être disciplinaire. Ainsi, si je choisis au préalable la bonne base (donc si je prends le temps de réfléchir avant de chercher…) les résultats seront beaucoup moins pollués par du bruit.

Chaque chercheur devrait donc maîtriser les deux à quatre bases de sa discipline (Pubmed, Inspec, MathScinet & ZentralBlattMath, etc.).

J’ai rencontré un jour deux étudiants de médecine m’expliquant qu’ils avaient cherché pendant deux heures à dénicher l’article miracle pour un sujet précis, sur Pubmed, sans y parvenir. Un prof est passé par là et l’a dénicher en deux minutes. Comment ? Parce qu’il connaissait le MeSH, ce language d’indexation (et plus que ça !) qui organise les articles de Pubmed. Les deux étudiants en question auraient passé moins de temps à comprendre comment fonctionnait Pubmed.

A quoi et à qui peut servir Google Scholar :

  1. Aux non-spécialistes qui découvrent un domaine, et ignorent quelles bases existent. Probablement ils ignorent aussi les connaissances de bases qui leur permettront de comprendre le contenu des articles qu’ils vont trouver. Donc Google Scholar n’était pas une bonne idée.
  2. A ceux qui n’ont accès aucune base disciplinaire, parce qu’elle n’existe pas (encore) ou parce qu’elle est payante et qu’ils ne sont pas rattachés à une université qui la propose.
  3. A ceux qui ont cherché dans les autres bases (celles qui ne contiennent que des notices d’articles) et n’ont rien trouvé. Google Scholar leur permet de retrouver des articles où les mots qu’eux-mêmes utilisent ne sont pas présents dans le titre, mais dans le corps du texte. C’est un moyen de découvrir qu’à la place de l’expression qu’ils recherchent, le titres des articles publiés sur le sujet contient généralement une expression alternative. Forts de cette alternative, ils peuvent repartir vers les bases disciplinaires.

Conclusion

Elle est évidente : l’acquisition de bases bibliographiques garde toute sa légitimité. Cela dit ce n’est pas leur coût qui fonde leur légitimité, et il me semble inutile de prétendre contraindre les étudiants à utiliser Medline sur la plate-forme OvidSP (donc en accès payant) s’ils peuvent accéder à la même base d’articles gratuitement sur Pubmed.

Donc oui, les bibliothécaires doivent persister à essayer de former leurs étudiants (et éventuellement chercheurs, mais eux-mêmes ont beaucoup à nous apprendre sur leurs pratiques : ils étaient là avant nous !).

Il reste la question des informaticiens qui n’utiliseraient que CiteSeer, des physiciens qui n’utiliseraient qu’ArXiv, etc. Une autre fois peut-être

Cette réflexion permet aussi de glisser vers la question de la recherche fédérée, mise en place dans de nombreuses bibliothèques pour permettre d’interroger simultanément les bases susmentionnées. Pertinente ? J’y reviendrai sans doute.

Avec Google Scholar, quel besoin des autres bases bibliographiques ? (1)

Je pose là encore une question de formateur d’étudiants et chercheurs en bibliothèque universitaire : ils sont de plus en plus nombreux à utiliser Google Scholar, et à s’en satisfaire (c’est-à-dire à s’en contenter).

A partir de là, je me vois imposer un choix :

  1. Je continue à m’abonner aux bases bibliographiques payantes (Inspec, Web of Science, Pascal, etc.) et à professer le même discours sur les limites de Google Scholar :
    1. Pas d’indexation manuelle systématique (donc un sujet commun, comme le sida, doit faire l’objet de recherches répétées avec les mots alternatifs : Sida, Aids, VIH, HIV, immuno-déficience, etc.
    2. Google Scholar cherche à la fois dans des notices d’articles (métadonnées : titre, auteur, sujet, résumé) et dans du texte intégral, et retrie ça grosso modo par PageRank (les articles les plus cités en tête), si bien que si le mot “sida” apparaît dans une note de bas de page d’un article très cité, celui-ci apparaîtra avant un article très pertinent portant exclusivement sur le sida.
    3. etc.
  2. Je remets les choses complètement à plat, et je me demande, sincèrement, si l’achat de bases de données bibliographiques reste utile avec l’existence de cette base gratuite. En gros, je laisse une chance à Google Scholar de l’emporter.

C’est un risque, mais qui aboutira enfin à de vraies réponses, et pas aux réponses préconçues du bibliothécaire bien formé que je suis. Car avec mon premier discours, même si Google Scholar s’améliorait sans cesse et tenait compte de mes critiques, je sais que je trouverais toujours de nouvelles critiques, parce que mon discours s’appuie en réalité sur deux motivations premières :

  1. l’habitude d’utiliser des outils plus “professionnels” que Google (ces outils font d’ailleurs tout à présent pour ressembler de plus en plus à Google : cf. la nouvelle interface d’OvidSP. La recherche à la Google est désormais baptisée “Recherche intuitive”, alors que c’est une conquête de Google sur les usages antérieurs, rien de plus).
  2. le fait que certaines bases m’ont coûté très cher, et que je veux avoir eu raison en les achetant.

Donc repartons du début. Non pas : à quoi doit ressembler une “bonne” base bibliographique. Mais : à quoi elle sert (et à qui) ?

Une base d’articles intervient lorsqu’un chercheur veut trouver une documentation spécifique sur un sujet précis, sortant des connaissances de base dans le domaine qui le concerne.

Cela signifie un premier préliminaire : si un étudiant commence par interroger une base d’articles, Google Scholar ou autre, pour débuter une recherche sur un sujet dont il ignore tout, il est inutile d’argumenter en lui expliquant que telle base est meilleure que telle autre. Simplement, il faut commencer par autre chose que par une base d’articles. Il faut commencer par une encyclopédie, par le chapitre d’un ouvrage, par l’ouvrage entier, par plusieurs ouvrages, par des dossiers documentaires en ligne. Mais pas par des articles.

Les articles visent à répandre une découverte se rajoutant à une masse de connaissances préalable. L’article s’appuie sur ces connaissances préalables, il y fait éventuellement référence (plutôt de façon implicite), mais ne les rappelle pas. L’article est le travail d’un chercheur à destination des autres chercheurs. Les auteurs savent ce que sont censés savoir leurs lecteurs, et en tiennent compte.

Donc pour comparer des bases d’articles, il faut partir du postulat suivant : toute base d’articles doit être adaptée aux besoins spécifiques des chercheurs déjà dans le bain.

Ayant défini le public, quel est son besoin ?

Trouver le plus rapidement possible la documentation la plus pertinente pour une recherche précise. En ayant identifié que cette doc prenait la forme d’articles et en sachant ce que ça signifiat

Google Scholar répond-il a ce besoin ? Et les autres bases ?