Skip to content

Publier des statistiques en RDF (4) : jeu de données… et données (enfin !)

29/10/2012

Toute la partie « Description de la structure des données » est faite (en réalité, le strict minimum — j’aurais des choses à y ajouter mais on verra plus tard).

Je peux à présent décrire le jeu de données (le rapport PAPESR 2011) et chacune des données.

papesr2011:Papesr_dataset2011 rdf:type qb:DataSet.
papesr2011:Papesr_dataset2011 qb:structure papesr_lully:Papesr_Structure.

La 1ère ligne dit que Papesr_dataset2011 est un jeu de données selon la définition du vocabulaire QB (RDF Data Cube).
La seconde ligne rattache ce jeu de données à la structure définie derrière l’URI – déréférençable –  papesr_lully:Papesr_Structure.

Je ferai de même pour les données PAPESR 2010.

Ensuite, chaque donnée publiée (chaque cellule du tableau) va être rattachée à ce jeu de données Papesr_dataset2011.

Encore un préalable : la liste des Université

Ayant récupéré les identifiants et leurs libellés, je vais pouvoir publier cette liste en RDF. Dans la publication des données elles-mêmes, je ne me réfèrerais qu’à l’identifiant.

Je précise que pour chaque préfixe inventé pour l’exercice, il faut que je mette en ligne le fichier avec une définition de namespace.

Papesr_univId:632  rdf:label "AixMarseille 1".
Papesr_univId:633  rdf:label "AixMarseille 2".
Papesr_univId:634  rdf:label "AixMarseille 3".
Papesr_univId:707  rdf:label "Amiens".
Papesr_univId:663  rdf:label "Angers".
Papesr_univId:722  rdf:label "Antilles-Guyane".
Papesr_univId:676  rdf:label "Artois".
Papesr_univId:710  rdf:label "Avignon".
Papesr_univId:638  rdf:label "Besançon".
Papesr_univId:645  rdf:label "Bordeaux1".
Papesr_univId:646  rdf:label "Bordeaux2".
Papesr_univId:647  rdf:label "Bordeaux3".
Papesr_univId:648  rdf:label "Bordeaux4".

Et donc ? Les données !

Je vous rappelle l’extrait du tableau 2011 que je voulais convertir :

id PAPESR Universités Nombre d’étudiants inscrits Nombre de nouveaux bacheliers
632 AixMarseille 1 20963 2907
633 AixMarseille 2 20815 3185
634 AixMarseille 3 21863 3033
707 Amiens 22243 4235

Vous pouvez voir le résultat :

Des données initiales à… ça : processus

Commençons par synthétiser en reprenant le tableau ci-dessus, pour voir ce qu’il est devenu :

Tel quel, on peut se dire que c’est beaucoup d’efforts ! Je plussoierai en précisant que :

  1. j’ai certainement fait plein d’erreurs dans la démarche et dans le résultat
    (parce que je n’ai pas fini de lire la doc, et parce que je n’ai pas fini de la comprendre)
  2. il faudra sans doute que je rajoute à tout ça un vocabulaire (structuré avec SKOS, comme Rameau) parce que la rubrique « Nombre d’étudiants inscrits » est en fait une sous-rubrique de Formations & diplômes > Inscriptions

MAIS

  • la table ID-Libellés ne sera plus à reproduire, et sera d’autant plus intéressante à exploiter quand j’aurai ajouté
    • le type foaf:Organization
    • la correspondance avec les identifiants DBpedia
  • l’ontologie qui décrit ce qu’est un Nb d’inscrits, mais aussi toutes les autres colonnes du tableau, sera réexploitable aisément pour la publication des autres années de stats, mais aussi pour publier des stats dans d’autres contextes
  • la production des différents documents peut être aisément automatisable (utilisation de feuilles XSL), dans la mesure où je m’appuierai sur le fichier XML de ces données (qui contient en plus toutes les années), et non sur la publication en tableau.

On verra plus tard comment les réexploiter ensuite. Avant, je dois tester pour de vrai sur un échantillon, sur l’ensemble, et convertir ces triplet en RDF/XML.

%d blogueurs aiment cette page :