Skip to content

Google Analytics pour Primo : étudier le comportement des internautes

07/07/2011

Je ne vais pas présenter Google Analytics. D’abord parce qu’il est relativement connu, ensuite parce que l’ergonomie en est presque intuitive, enfin parce que je le sous-utilise d’une manière pitoyable. Il y a dans ce moteur une masse de possibilités qui m’échappent (au moins pour l’instant), et je ne me risquerai donc pas à faire semblant de vous bricoler un tutoriel, là, tout de suite.

Non, n’insistez pas.

STFW.

<update>Suite à ce commentaire, je rediffuse : Piwik permet tout ce que je décris ici avec Google Analytics. Et c’est open source, hébergé chez soi. "Google Analytics c’est mal, utilisez Piwik et faites passer ;)"</update>

Mais je peux  vous indiquer quelle utilisation très intéressante peut en être faite pour voir ce qui, appliqué à un outil de recherche comme Primo (mais ça marche aussi avec tous les outils de recherche conçus normalement), permet non seulement de connaître le nombre d’internautes chaque jour, mais surtout de savoir ce qui, dans votre interface, est utilisée ou non.

Comme je ne suis pas statisticien, je vous invite bien volontiers à réagir pour dénoncer comme amateure et fallacieuse la méthode décrite ci-dessous.

La méthode est celle déjà décrite (plus élaborée) dans cet article de 2009, utilisée à la North Carolina State University pour leur opac Endeca.

Première étape (évidemment) : Installer le script Google Analytics sur son opac

Quand vous créez votre rapport Google Analytics, il vous fournit un code JavaScript à intégrer dans votre site.

Il faut l’installer dans un de ces fichiers qui sont présents sur toutes les pages. Pour Primo, ce peut-être le pied de page, par exemple (static_htmls/footer.html). Vérifiez qu’il est aussi dans le code des pages d’aides, etc. C’est toujours utile.

Deuxième étape : laissez mijoter

Maintenant, ne touchez plus à rien. Il ne s’agit pas de savoir si vos consultations sont en hausse ou en baisse, mais d’engranger une masse suffisante de sessions dans votre base statistique.

Troisième étape : le rapport Détail des pages par URL

Je vous renvoie au billet concernant l’enregistrement des logs et la manière dont les outils comme Google Analytics s’efforcent de transformer en données statistiques des données de traçabilité d’actions sur les serveurs web.

Lien Détail des pages par URL

Ce rapport enregistre l’ensemble des URL réclamées au serveur, pour la période de temps étudiée.

Dans cette masse d’URL, certaines correspondent à l’affichage de la page d’accueil, d’autres à l’affichage d’une liste de résultats, d’une notice détaillée, etc.

Il faut donc identifier dans l’URL ce qui correspond à l’utilisation d’un index, d’une facette, à l’affichage du panier, etc.

Par exemple, si l’URL contient search.do, c’est qu’elle correspond à une liste de résultats. Si elle contient display.do, il s’agit de l’affichage d’une notice détaillée.

Dans ma masse globale d’URL enregistrées,

si je filtre aux pages dont l’URL contient "display.do"

j’apprends que l’affichage d’une notice correspond à 17% des pages vues.

Je ne sais pas si ce chiffre vous est très utile (mais on peut en faire quelque chose tout de même), mais voici les autres critères utilisables comme autant de filtres :

  • indx=1 : clic sur le 1er résultat
    indx=2 : clic sur le 2e résultat
    indx=3 : clic sur le 3e résultat
    Si vous comparez chacun des nombres obtenus à l’ensemble des URL contenant le mot "indx", vous saurez quelle proportions d’internautes cliquent sur le 1er, le 2e et le 3e résultat. Vous aurez donc confirmation qu’ils utilisent le catalogue comme Google (60-70% des recherches ne dépassent pas le 3e résultat)
    Avec Primo 3, l’affichage d’une notice détaillée ne nécessite plus de chager de page et d’URL. Cet indicateur n’est plus traçable.
  • mode=Basic : recherche simple
    mode=Advanced : recherche avancée
  • basket.do : consultation du panier
    preferences.do : affichage des préférences
    error.do : arrivée sur la page d’erreur — à fignoler si vous constatez que beaucoup de monde y accède…
  • fctN=facet_tlevel : sélection d’une facette de haut niveau
    que l’on peut combiner avec les valeurs possibles :
    • fctV=online_resources : afficher uniquement les ressources en ligne
    • fctV=available : afficher uniquement les ressources disponibles

      puis
  • fctN=facet_rtype : utilisation de la facette "Type de document"
    combinable ensuite avec les valeurs possibles pour cette facette :
    • fctV=books
    • fctV=journals
    • fctV=maps
      Si vous constatez que seuls les valeurs "Livres", "Revues" et "CD/DVD" sont utilisés, par exemple, vous pouvez ainsi décider de n’afficher par défaut que 3 valeurs de cette facette
  • fctN=facet_library : utilisation de la facette "Bibliothèque
    combinables avec ses différentes valeurs, selon la même syntaxe que ci-dessus
  • fctN=facet_topic : facette Sujet
  • fctN=facet_creator : facette Auteur
  • fctN=facet_lang : facette Langue
  • scp.scps= XXX : recherche limitée à un sous-ensemble (une bibliothèque, etc.) sélectionnée en amont, dans le formulaire de recherche

Nous avons ainsi pu constater, notamment, que :

  • la recherche avancée sert peu
  • les lecteurs aiment beaucoup la facette "Bibliothèque" et la facette "Type de document"
  • ils ne voient pas les facettes de haut niveau quand elles sont en haut de la liste des résultats : il faut la mettre dans la colonne des facettes
    (les deux affichages sont possibles dans Primo, d’un simple clic)
  • Ils ne limitent pas la recherche par bibliothèque en amont (dans le formulaire de recherche), en revanche ils aiment bien limiter d’emblée la recherche au type de document (livres, revues, ou thèses-mémoires)
  • ils aiment bien limiter les résultats à la langue française
  • les préférences ne sont pas utilisées, non plus que l’historique des recherches
    Le panier en revanche sert un petit peu (ouf !)
  • la facette Sujet est plus utilisée que la facette Auteur — donc Rameau ne leur fait pas si peur que ça !
  • et quelques autres petites choses qui nous sont propres

Il y a des choses qui nous sont simplement confirmées, et dont on se doutait largement. Et puis apparaissent des informations plus précises, qu’il aurait été difficile de simplement deviner, qui apparaissent vraiment comme une aide à la décision pour faire évoluer le catalogue.

About these ads
4 Commentaires
  1. 07/07/2011 08:29

    Evidemment, rien de mieux que la traçabilité pour évaluer l’usage et faire évoluer le catalogue. Tout cela me donne bien envie d’essayer Google Analytics sur notre OPAC. Je ne suis pas certaine de pouvoir analyser les pages car, avec AbsysNET, les url ne sont pas aussi "claires" que celles de Primo. Mais au moins, on en aurait le cœur net. Merci.

  2. Synt4XX_3rr0r permalink
    07/07/2011 10:46

    Merci pour tous tes efforts de vulgarisation technologique et de partage de ta connaissance et de tes expériences, cela relève d’une intention plus que louable. Je te lis d’ailleurs régulièrement et trouve réconfortant de ne pas être le seul geek sur l’étrange planète des bibliothèques.

    Cependant, je suis toujours perplexe quand j’entends parler d’utiliser Google Analytics, en particulier pour un service public où je trouve ça franchement TRES discutable.

    Quand on sait que les données ainsi collectées par Google sont stockées sur des serveurs hébergés aux Etats-Unis, échappant de ce fait à tout contrôle de la CNIL et aux lois "Informatique et libertés" (parmis les plus protectrices au monde pour les utilisateurs) mais pas au "Patriot Act" (difficile de faire plus liberticide), je me demande si ce n’est pas un peu une trahison des valeurs du service public en général, des idéaux portées par les bibliothèques en particulier, et une trahison tout court envers les utilisateurs qui ne réalisent absolument pas les problèmes que cela pose …

    … quand on sait aussi que cette masse de données collectées est une véritable mine d’or pour Google dont le coeur de métier est – ne l’oublions pas – la publicité ciblée, je me demande si c’est bien le rôle du service public Français que de les aider …

    … enfin, quand on sait qu’il existe des alternatives open-source telles que l’excellent Piwik ( http://piwik.org/ ) qui permet d’héberger son outil de stats "chez soi" (sur ses propres serveurs) et quand on sait qu’il est très facile à installer, très puissant en terme de fonctionnalités et permet sans problème le genre de bidouillages exposés dans ce billet …

    … ben j’en arrive à la conclusion que préférer Piwik à GA devrait être systématique dans le service public, et ne pas faire ce choix relève à mon avis de la faute professionnelle.

    Encore faut-il – pour avoir le choix – avoir connaissance de l’existence de cet excellent outil qu’est Piwik, ce qui est loin d’être le cas pour tout le monde, je le conçois aisément (difficile de se faire connaître face à la force de frappe considérable de Google).
    D’où le sens de mon commentaire, et d’où mon message : Google Analytics c’est mal, utilisez Piwik et faites passer ;)

  3. Sylvain Machefert (Symac) permalink
    07/07/2011 12:09

    De manière idéologique Synt4XX_3rr0r a bien évidemment raison, et si on en a la possibilité, installer piwik est bien sûr la meilleure solution. C’est ce qui a été proposé en équipe projet chez nous et j’espère que nous y parviendrons.

    Mais de manière pragmatique, on aura en règle générale du mal à trouver du monde pour s’en occuper et interne. Et si on part du principe que plus de la moitié des sites web utilisent GA et que l’on compare ce chiffre au temps que les gens passent sur nos catalogues par rapport au temps passé sur internet de manière globale, je ne suis pas sûr que se priver de cet outil dans nos structures ait un grand impact sur le respect de la vie privée de nos lecteurs.

    Statistiques sur les outils d’analyse : http://w3techs.com/technologies/overview/traffic_analysis/all

Trackbacks

  1. Interface mobile « Bibliothèques [reloaded]

Les commentaires sont fermés.

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 109 autres abonnés

%d bloggers like this: