Skip to content

Le 18 juin 1940 dans data.bnf.fr

18/06/2016

Parmi les explorations que j’ai envie de faire autour de data.bnf.fr, il y a ce qu’on peut en extraire à l’occasion d’événements particuliers, comme les commémorations ou l’actualité.

Une occasion d’explorer la question m’est donnée par la date du 18 juin [1940]. Ce qu’on peut faire à partir de ça, je ne fais que le soupçonner pour l’instant, et j’aurai, je l’espère, des idées nouvelles au fur et à mesure des occasions et des thèmes à couvrir.

Donc partons pour l’instant simplement sur le concept Rameau : Appel du 18 juin 1940

Son ARK (identifiant pérenne) dans data.bnf.fr est : http://data.bnf.fr/ark:/12148/cb12092565r

Un premier réflexe est de voir quel usage est est fait au fil des années (en gros : à quelles dates sont publiés des ouvrages sur ce thème)

Requête SPARQL (et résultat)

PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/>
select ?datePublication (count(?doc) as ?NbPublications) where {
  ?doc dcterms:subject <http://data.bnf.fr/ark:/12148/cb12092565r>.
  ?doc bnf-onto:firstYear ?datePublication.
}
ORDER BY ?datePublication

Déjà, on voit qu’il sort plus de bouquins à chaque année en « 0 ». Donc pour les 50 ans, les 60 ans et les 70 ans de l’appel (la notice Rameau a été créée en 1988, si bien qu’il y a peu de documents antérieurs à cette date qui soit indexé avec ce terme)

18 juin - nb de publications par an

Peut-on prédire qu’il y aura 8 livres sur le 18 juin en 2020 ?

A noter que ma requête n’est pas très prudente : s’y trouvent en réalité quelques photos et 2 films, que j’aurais dû évacuer ou au moins isoler) en limitant au type de document. Mais bon, ceci n’est pas un article scientifique…

J’aurais pu ensuite chercher les termes associés à l’indexation « Appel du 18 juin 1940 », c’est-à-dire : les documents indexés avec cette expression sont indexés avec quels autres termes ?

Mais comme le corpus n’est pas très gros, j’ai tapé directement plus haut : j’ai récupéré les documents indexés « Charles de Gaulle » et extrait, par année, les autres mots-clés.

L'autre Charles de Gaulle (1837-1880)

J’ai regroupé les années par période de 5 ans, pour rendre les résultats plus lisibles, et j’ai chargé ça dans Gephi. En gros, un lien est créé entre une année et un mot-clé chaque fois qu’un livre parlant de Charles de Gaulle. Voici la requête SPARQL

PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/>
PREFIX rdarelationships: <http://rdvocab.info/RDARelationshipsWEMI/>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
select ?date ?label where {
  ?doct dcterms:subject <http://data.bnf.fr/ark:/12148/cb11904345m>.
  ?doct dcterms:subject ?sujet.
  ?sujet skos:prefLabel ?label.
  ?doct bnf-onto:firstYear ?datepub.
 BIND ((round(?datepub/5)*5) as ?date).
  FILTER (str(?sujet) != "http://data.bnf.fr/ark:/12148/cb11904345m").
  FILTER (?date > 1935).
  FILTER langMatches(lang(?label), "fr").
}

ORDER BY ?date}

Et voici le résultat dans Gephi

L’intérêt d’une telle représentation, c’est qu’elle permet de voir à quels autres concepts (ou personnes) les auteurs associent De Gaulle quand ils parlent de lui, et comment ces associations évoluent dans le temps

Graphe CdG

On voit ainsi que toute la période des années 1950 à 1970 (De Gaulle meurt en 1970) est assez distincte des années 1975-2015. Pour le voir un peu mieux, voici le même graphe mais où j’ai tracé un chemin d’une période de 5 ans à l’autre :

Graphe CdG - évolution années

Dans la partie droite du graphe (années 1940-1970), De Gaulle est surtout associé à d’autres noms : Chaban-Delmas, Giscard, Eisenhower, Churchill. Et au fur et à mesure qu’on se rapproche de la gauche, ce sont des événements politiques qui prennent le dessus : la guerre d’Algérie, la Seconde Guerre mondiale. Et contrairement à la première période, des ouvrages lui sont exclusivement consacrés. Le mot Rameau « Biographies » associé à « Charles de Gaulle » est surtout utilisé en 2010 (pour les 40 ans de la mort du général ?)

CdG - Biographies

Pour mémoire : la proximité entre le noeud « Biographies » et le noeud « 2010 » montre que la plus grande partie des occurrences de « Biographies » est en 2010. La taille de chacun des noeuds dépend du nombre de liens qui les concerne dans la totalité du graphe. Les couleurs sont attribuées par Gephi, en fonction de leur modularité (pour faire simple : Gephi cherche à identifier des sous-ensembles par codes couleurs)

Un truc assez étonnant que vous avez peut-être noté si vous avez pris le temps de regarder le graphe complet ci-dessus avec les flèches : on passe directement de 1945 à 1955. Cela signifie qu’aucun ouvrage publié entre 1948 et 1952 (période qui aurait été arrondie à « 1950 ») dans ma requête SPARQL) n’est décrit comme parlant de « Charles de Gaulle ».

Une autre recherche qui aurait pu être intéressante, aurait consisté à se demander à quel moment (si jamais c’est déjà le cas) De Gaulle a cessé d’être de l’actualité politique pour devenir de l’histoire contemporaine. La distinction qu’on constatait dans le graphe ci-dessus entre la partie droite (années 1940-1970) et la partie gauche répond peut-être en partie à la question (la réponse serait grosso modo : dès sa mort).

On pourrait aussi chercher du côté du profil des auteurs d’ouvrages sur De Gaulle. Je manque de temps et de compétences pour identifier la manière de répondre à cette question, mais voici toujours un dernier graphique, qui compare le nombre de documents indexés « De Gaulle » et ceux indexés « Gaullisme », par demi-décennie :

CdG - gaullisme

 

Mon idée prioritaire n’est pas tellement d’explorer ces données, mais d’identifier les outils à mettre en place (pour éviter des requêtes manuelles) afin de faciliter au maximum ce genre d’extraction, pour moi-même et pour les utilisateurs de data.bnf.fr.

Publicités
One Comment

Trackbacks

  1. Le 18 juin 1940 dans data.bnf.fr | Vers le Web ...

Les commentaires sont fermés.

%d blogueurs aiment cette page :