Skip to content

Mais que fait Gephi ?

03/07/2014

Suite au précédent billet, je comptais vraiment commencer à faire de petits exercices pratiques sur Gephi.

Mais au vu des premières utilisations, je me dis qu’il peut être utile d’expliquer le principe sous-jacent de l’outil.

La spatialisation des données, vous vous en doutez, n’est pas un truc un peu magique dans lequel on balance un ensemble d’information, et il en ressort un beau graphique bien parlant.

J’utilise le terme de « spatialisation » des données, sans doute impropre (en tout cas le sens dans lequel je l’emploie n’est pas – encore – référencé par Wikipedia). « Visualisation des données » est trop large (il y a plein de manières de faire de la visualisation des données, que Gephi ne prend pas en charge).

Dans Gephi, les données en entrée doivent être des concepts liés entre eux par paires. Ces concepts peuvent avoir un certain nombre d’attributs, et les liens peuvent également être qualifiés.

Sur la base de ces données, Gephi calcule la distance entre chaque paire de points.

Un lien vaut 1 ?

Mon premier cas d’exercice sur Gephi était la cartographie de notre système d’information documentaire : un ensemble de logiciels liés entre eux, et liés aux services qui les administrent.

En entrée, j’avais des données comme celles-ci, non qualifiées :

  • Aleph – Sidoc (pour moi, ça veut dire : Aleph administré par le Sidoc)
  • Aleph – Primo (ce qui signifie : Aleph alimente Primo)
  • Primo – Sidoc (Primo administré par le Sidoc)
  • Annuaire – Aleph (l’annuaire alimente Aleph)
  • Annuaire – DSI (annuaire administré par la DSI)
  • Harpège – Annuaire (Harpège alimente l’annuaire)
  • HAL-Unice – Primo
  • HAL – HAL-Unice
  • HAL – CCSD
  • etc.

On peut estimer qu’il y a une distance de 1 entre Aleph et le Sidoc. Il y a une distance 1 entre Primo et Aleph, et entre Primo et le Sidoc.

Mais quelle est la distance entre Aleph et HAL-Unice (2 sources alimentant Primo, administrées par 2 services distincts) ? Aucune n’est explicitée dans les données sources. Pourtant la spatialisation des données va donner à voir une distance entre ces deux outils.

Du point de vue mathématique, l’ensemble des données construit un univers à n dimensions, ou n correspond au nombre de liens (ou au nombre de concepts, ou au nombre de liens-1, enfin bref, n est bien supérieur à 2 ou 3).

Gephi calcule les distances entre chacun des concepts (qu’il appelle des noeuds) en fonction des relations exprimées (qu’il appelle des liens). Dans un monde normal, certaines de ces distances sont incompatibles entre elles.

Ensuite, Gephi essaie d’en rendre compte dans un espace en 2 dimensions, de la manière la plus satisfaisante possible. C’est-à-dire qu’il n’y a pas de manière neutre de le faire.

Normal : ce sont des algorithmes qui s’en chargent, et les algorithmes ne sont jamais neutres.

Pondérations et regroupements

Une des grandes forces de Gephi, c’est de ne pas juste spatialiser les données. « Juste spatialiser les données », çavoudrait dire donner à voir qu’il y a des noeuds et des liens.

C’est ce qui se passe quand on charge initialement un fichier : Gephi sort un machin tout moche.

gephi - graphe brut

Ensuite, Gephi est capable de faire 2 choses essentielles :

  • il identifie des groupes, sur la base des proximités déduites du fichier en entrée
  • il détermine quels noeuds sont plus importants que d’autres

Ces 2 opérations sont avant tout mathématiques. Leur rendu visuel n’arrive que dans un second temps. Ça signifie qu’avant de choisir des codes couleurs, il faut demander à Gephi d’opérer les calculs nécessaires pour les regroupements, et pour les pondérations. Gephi va donc enrichir les données de données nouvelles, calculées par lui sur la base de modèles mathématiques.

Là encore, rien n’est neutre et c’est de la responsabilité de l’utilisateur de savoir quel est le sens des algorithmes complexes qui tournent derrière.

Un exemple pour la pondération : imaginons une population de 100 individus reliés entre eux (mettons qu’on a recensé leurs échanges de mail : 1 mail = 1 lien).
Dans ces 100 individus, l’un a 60 liens avec 30 individus (il a échangé en moyenne 2 mails par personne destinatrice) ;un autre a 50 liens avec 40 individus.
Si on cherche à identifier les individus les plus actifs ou les plus influents, on valorisera tantôt le nombre de liens concernant un individu, tantôt la diversité de ses contacts, qui rend d’une certaine manière compte de l’étendue de son influence au sein du réseau.

Rapide exemple d’application en bibliothèque

Gephi est « vendu » pour être particulièrement adapté à l’étude des réseaux (un compte Twitter, un compte Facebook, un site web, etc.).

Mais en réalité de très nombreuses choses peuvent se concevoir comme des réseaux.

Je donnais ci-dessus l’exemple du système d’information documentaire.

Mais voici autre chose :

GraphePrêtsLes données analysées sont les suivantes : pour chaque prêt de janvier à avril, j’ai récupéré le nom de la BU et le nom du diplôme de l’étudiant (donc une ligne par prêt — 55.000 au total).

J’obtiens ainsi un positionnement des BU les unes par rapport aux autres, avec affichage de leur proximité ou éloignement en fonction des prêts : chaque fois qu’un lecteur emprunte dans 2 BU sur la période étudiée, ça les rapproche.

Je peux ainsi identifier des cursus qui sont à la frontière de telle ou telle bibliothèque, ou qui utilisent une particulièrement grande diversité de lieux. Je peux aussi lutter contre l’isolement de l’une des bibliothèques, ou au contraire en prendre acte.

Je reconnais que c’est encore très rudimentaire, mais ça donne des idées sur ce que peut être un « réseau » : une population (de tout et n’importe quoi) dont les membres ont des liens entre eux.

Un corpus d’œuvres d’art pourrait être étudié de la même manière. Les liens entre elles ne seraient pas seulement l’auteur, la période chronologique ou la région d’origine, mais aussi, par exemple, les caractéristiques iconographiques : bref, tout ce qu’elles peuvent avoir en commun les lie entre elles.

Bon, je pense que pour la prochaine fois, c’est promis, je vous en dirai un peu plus sur le mode d’emploi.

2 commentaires

Trackbacks

  1. Mais que fait Gephi ? | Dr. Goulu | Scoop.it
  2. Somewhere else, part 147 | Freakonometrics

Les commentaires sont fermés.

%d blogueurs aiment cette page :