Skip to content

Publier des statistiques en RDF (5) : petit récapitulatif sur le schéma d’ensemble

31/10/2012

Structure globale

Sur la base de l »épisode 4, revenons sur la structure d’ensemble.

Le point de départ de ma préoccupation, c’est la publication de données statistiques concernant les Universités. Dans un premier temps, j’ai cru que ce que je voulais décrire, c’était des informations rattachées au « concept » Université.

En réalité, le point de départ doit être la donnée statistique, c’est-à-dire la cellule du tableau de données.

En remontant à chaque fois d’un cran dans la « conceptualisation » ou le méta :

  • La donnée (ou « observation ») doit être associée à un jeu de données (data set)
  • Le jeu de données doit être lié à une structure de jeu de données (Data Structure Definition)
  • La structure de jeu de données utilise un ensemble de types de données (pour chaque type, on indique si ce sont des pourcentages, des valeurs absolues, des âges, etc.)
  • et chaque donnée (ou observation — chaque cellule du tableau, donc) est associée à un type de donnée.

Évidemment, chacune de ces associations (les flèches) a un nom différent, mais pour l’instant je ne vais pas alourdir encore ce schéma.

Je n’ai pas encore, non plus, intégré l’utilisation d’un ensemble de concepts structurés (du type : « Nombre d’inscrits » dépend de la rubrique « Formations & diplômes »), dont la structure va être exprimée en SKOS.

Démarche globale

De ce que je retiens, quand à la globalité du truc, c’est que quand on veut mettre en triplets des données, il faut

  1. lister les types de relations dont on va avoir besoin.
    Si ces types de relations n’existent pas, il faut les créer (les décrire) en OWL
  2. définir une structure globale qui exploite ces types de relations (et éventuellement d’autres en plus)
  3. rattacher les données à cette structure et les décrire, en utilisant les relations définies au point 1.

Il ne suffit pas de pouvoir compter sur le fait qu’il existe déjà des dc:title ou des rdfs:label (qu’on n’a donc pas besoin de définir), encore faut-il préciser (c’est l’étape 2) qu’on va s’en servir.

Et bien sûr les étapes 1 et 2 doivent aussi s’écrire sous forme de triplets.

La fois suivante, j’explique le mécanisme de production des triplets (du XSL, tout simplement…) sur la base de la structure définie pour quelques données

Les commentaires sont fermés.

%d blogueurs aiment cette page :