Skip to content

Gephi : première utilisation – données (simples) en entrée

18/07/2014

Première chose à faire : munissez-vous d’un fichier CSV à 2 colonnes.

Pour la première fois (et les quelques suivantes), on ne va pas s’embarrasser de questions complexes sur le format des données en entrée.

Donc le plus simple, c’est d’avoir un fichier CSV à 2 colonnes. Pour les valeurs qui contiennent un espace, il faut mettre l’ensemble entre guillemets.

J’ai déjà donné quelques exemples de telles données dans le cadre d’une bibliothèque :

  • description du système d’information
    Le fichier contient alors l’ensemble des applications, et les liens entre elles.
    Si le SIGB est lié à l’annuaire LDAP de l’université (pour le chargement des lecteurs), au CAS (pour l’authentification), à un opac (logiciel spécifique), le fichier contiendra :

    SIGB;"annuaire LDAP"
    SIGB;CAS
    SIGB;opac
  • Liste des prêts pour chaque bibliothèque
    La spatialisation des prêts peut se faire avec plusieurs types de données en entrée.
    Il faut éviter les données trop diverses, trop éparses : donc éviter les identifiants (CB exemplaires, CB lecteurs), et plutôt constituer des populations si c’est possible.
    Exemple : pour chaque prêt enregistré par un chercheur, mettre côte à côte :

    Bibliothèque;"Laboratoire du chercheur"

    Ça permettra ensuite de visualiser la proximité entre tel labo et les collections d’une BU
    Autre possibilité : si vous faites du prêt multisites, mettre côte à côte

    "Bibliothèque de l'exemplaire";"Bibliothèque qui enregistre le retour du prêt"
  • Visualisation les collections
    Par exemple pour visualiser les tranches de cotes communes à plusieurs sites :

    "Bibliothèque";"Tranche de cote"

    Ca permet de voir les recoupements entre les différents sites, par tranche de cote.
    Il faut bien mettre une ligne par exemplaire (et non par tranche de cote différente) : le nombre de lignes identiques vient renforcer le lien entre les 2 entités mises en relation.

On pourrait penser à toutes sortes d’autres données

Ainsi, j’ai récupéré il y a quelques jours une liste de questions arrivées dans notre service de questions-réponses. Pour chaque question, je n’ai gardé que :

  • le niveau de l’internaute (Licence/Master/etc.)
  • le type de question (recherche bib/infos pratiques/etc.)
    Ca permettait de voir que (je simplifie) les L posent surtout des questions sur les infos pratiques ; que les M nous interpellent sur les problèmes de compte lecteur (ou autres services du même genre) et pour des recherches bibliographiques ; et les D et enseignants-chercheurs utilisent ce service quand ils ont des problèmes d’accès aux ressources en ligne.

On pourrait penser à toutes sortes de données relatives aux collections, aux lecteurs, aux services. Je suis sûr que des logs de connexion au reverse-proxy (si bien renseignées) nous en apprendraient beaucoup.

Bon, je vous laisse trouver un fichier de ce genre, et je vais préparer le billet suivant, qui va consister à charger le fichier dans Gephi.

4 manipulations prévues :

  1. obtenir une spatialisation « parlante » des données en entrée (organisation des objets ans l’espace), avec des écarts pertinents entre les différentes entités décrites
  2. calculer le poids (l’importance) des différents noeuds et liens
  3. générer un regroupement de certaines entités qui se verront ainsi attribuer une couleur commune
  4. obtenir que les entités apparaissent plus ou moins grosses, en fonction de leur importance dans les données en entrée (donc en fonction de l’étape 2)

Bref, un truc qui ressemble à ça :

sidoc

Et c’est promis, par la suite on verra d’autres fichiers plus complexes que les CSV. Mais ça permet de faire déjà pas mal de choses. Et comme pour ma part je vois passer chaque jour des fichiers contenant des colonnes, tels qu’il serait intéressant de les spatialiser, je me dis que c’est de la matière brute que vous avec forcément sous la main vous aussi. Alors que des fichiers GEXF, il faut un petit peu les chercher !

3 commentaires
  1. Dominique permalink
    21/07/2014 11:21

    Je m’inscris à votre mooc ! 🙂

Trackbacks

  1. Gephi : première utilisation – spatialisation | Bibliothèques [reloaded]
  2. Gephi : première utilisation - donn&eacu...

Les commentaires sont fermés.

%d blogueurs aiment cette page :