Skip to content

De la Wikipedia à la DBpedia : on n’a rien perdu en route ?

05/12/2012

Le 19 novembre, ainsi que vous l’avez sans doute vu passer, naissait officiellement SémanticPédia (avec des accents sur les e, et une terminaison en ic, ce qui à mon sens est un curieux mélange), structure associant 3 partenaires : Wikimedia France, le Ministère de la Culture et l’Inria.

Le projet phare de cette structure est la mise en ligne d’une DBpedia à la française, c’est-à-dire d’une mise en triplets RDF de données tirées de la Wikipédia francophone.

Donc la page WP francophone Romain Gary a désormais son équivalent DP francophone (tiens ? francophone ou française ?). A noter d’ailleurs que ce dernier lien n’est qu’un affichage des triplets à destinations du navigateur, avec pour URL : http://fr.dbpedia.org/page/Romain_Gary, mais que les « vrais triplets », exploitables notamment par le Sparql Endpoint de la DBpedia, sont accessibles à l’adresse http://fr.dbpedia.org/resource/Romain_Gary.

Depuis plusieurs années, j’entends que le discours de valorisation (légitime) des richesses de Wikipedia s’appuie notamment sur l’exigence de sources : les affirmations des articles doivent être sourcées, notamment par des références en bas de page.

Or le contenu des notes n’est pour l’instant pas repris dans la version RDFisée. Dans la mesure où ce sont censées être des « données brutes », parfaitement objectives, l’utilisation qui va en être fait va complètement évacuer la question de l’origine de l’information, dont l’exigence dans Wikipedia permettait de contrebalancer l’accusation (de moins en moins fréquente) d’amateurisme.

Ces notes ne sont pas davantage reprises dans la version anglophone. J’en conclus qu’ils ne font pas partie du projet.

C’est dommage, et sans doute dommageable.

14 commentaires
  1. 05/12/2012 15:40

    A reblogué ceci sur bibliothecaire ?.

  2. 05/12/2012 15:45

    Etienne, je viens de te rebloguer: je trouve ta remarque très pertinente. Comme beaucoup je me suis réjouit de voir Wikipedia prise en compte par le gouvernement mais l’aborder comme un réservoir de données, c’est l’aborder par le bout que prennent nos étudiants, en particulier, alors qu’il me semble qu’une approche plus féconde serait de le prendre par l’autre bout, celui de la construction d’un article et de son autorité.

  3. 05/12/2012 18:56

    Cercamon : Les deux approches ne s’opposent pas du tout.
    D’une part Wikipédia est une encyclopédie (entendue dans un sens tellement différent d’Universalis que cela pose des questions conceptuelles) ; d’autre part c’est *également* lisible par des robots, avec toutes les conséquences que cela a en terme de gestion de l’information – et notamment pour sémantiser le tout.

    Lully1804 : Les parties structurées qu’on peut sémantiser sont l’infobox, les catégories… : des endroits où il n’y a pas de sources. Il y a cependant un travail en cours pour sémantiser les parties non encyclopédies de WP (historiques, pdd…) afin d’enrichir le corpus et permettre des recherches nouvelles.

  4. 05/12/2012 19:07

    Les deux approches ne s’excluent pas mais elles peuvent s’opposer, au moins en un sens topographique🙂 Il est vrai que « plus féconde » est trop rapidement écrit: les finalités ne sont pas les mêmes et l’important au fond est que Wikipedia soit prise au sérieux. Je ne faisais qu’exprimer le souci de ne pas voir l’orientation « données » oblitérer le besoin d’un autre mode d’accès à la connaissance. Cf. ma note d’hier: http://bibliothecaire.wordpress.com/2012/12/04/science-litterature-et-langage-francois-bon-chez-michel-alberganti/

  5. 05/12/2012 20:48

    @RemiMathis : l’introduction est aussi reprise dans la DBpedia, et elle est souvent sourcée.
    Lors de l’épisode 1 de Biblioquest en septembre dernier, j’ai eu l’occasion d’entendre Perrine parler de l’affaire Philip Roth vs Wikipedia autour de The Human Stain (La Tache en français) : des critiques littéraire ont cru reconnaître Anatole Broyard dans le personnage central, ce que Philip Roth a contesté, jusque dans l’article Wikipedia. Sauf qu’il ne suffit pas d’être l’auteur du roman pour avoir le dernier mot sur l’article d’icelui dans Wikipedia… Des sources ont été demandées à Philip Roth, et il a dû produire des articles contradictoires hors Wikipedia, pour pouvoir s’y référer hors Wikipedia…
    Ces informations sont résumées dans le paragraphe introductif de The Human Stain, dont on retrouve le texte dans la version DBpedia, mais sans les notes de bas de page.

    Cela dit, il me semble que la préoccupation doit être plus large que la seule RDFisation de Wikipedia : l’utilisation de Linked Data donne l’impression, plus généralement, d’une objectivité parfaite des données — dont celles qui sont dans l’infobox.
    Cela m’a particulièrement frappé quand je me suis préoccupé de la mise en triplet de données statistiques : le simple nombre des étudiants d’une Université varie selon les sources (entre la page française de l’Université de Nice, la page anglaise ou encore PAPESR).
    Dans la page WP française, au nombre brut (26196) on précise de quelle année universitaire il s’agit (2010-2011) et il y a bel et bien une note de bas de page qui indique d’où vient ce nombre. Pour la version anglophone, ce n’est pas le cas — mais d’une certaine manière, ce n’est pas si grave parce qu’on sait qu’on est sur Wikipedia, qui est un work in progress, où toute information est susceptible d’être corrigée, etc.

    La tripletisation (juste parce que ça me fait plaisir) désincarne l’information. Sur la page de l’Université de Nice de la DBpedia francophone, le seul nombre 26196 est avancé, sans précision de date (est-ce pour l’année en cours ? Non, mais on l’ignore) ni source de l’information.
    D’où une impression d’objectivité absolue, acceptable absolument — ou contestable absolument.
    Mais, je le redis, le problème est plus global que la seule DBpedia : comment apprendre à décontextualiser les données RDF (si elles sont RDFisées, c’est précisément pour pouvoir être décontextualisées) sans qu’on oublie jamais que toute information n’est qu’une observation faite à un moment donné par une personne (laquelle est parfois morale) ?

  6. 05/12/2012 21:56

    Ton billet et ton commentaire en réponse à Rémi posent la question de la confiance qu’on peut mettre dans des triplets en RDF pour les réutiliser et cette confiance doit être basée sur la notion de preuve nécessaire pour l’établir.

    La question que tu poses et tes interrogations ont été et sont encore pour certains des objections utilisés contre le Web sémantique. Si tu relis les billets et les commentaires des Petites cases autour des réflexions du RT Pédauque, tu verras en filigrane des arguments des tenants du document l’interrogation que tu poses, car, pour eux (et ils n’ont pas tort) la forme documentaire contient par essence les marques qui permettent de déterminer cette confiance. En l’absence de document, ces marques disparaissent et cela peut être dangereux.

    Or, cette réponse ne me satisfait pas complètement et c’est pourquoi j’avais placé cette question au cœur de la problématique de mon article pour le séminaire INRIA (cf. http://fr.slideshare.net/AntidotNet/histoires-de-notices slides 74 et suivantes)

    Les réponses à ces problématiques se situent à plusieurs niveaux : dans la présence de ces informations dans les données initiales, dans leur expression en RDF, dans la capacité des outils à les utiliser et surtout des humains à déterminer ce que signifie la confiance en une donnée en fonction de l’utilisation qu’il souhaite en faire.

    Au niveau de l’usage :

    Il ne faut jamais oublier que les données en RDF sont à destination des machines (stupides, donc…😉 ). Le RDF est donc volontairement limité, il s’agit d’une logique formelle qui n’a absolument pas vocation à retranscrire l’ensemble de la complexité de notre monde et de la logique humaine, mais d’en donner une facette, une vision pour permettre à la machine de traiter certaines choses. Par ailleurs, il ne faut pas oublier que ces machines sont pilotées par des humains, charge aussi à ces derniers d’avoir conscience de leurs choix d’ensemble de données, de la manière de les relier, de les traiter et de les exploiter. Ainsi, ils m’arrivent très régulièrement d’utiliser dbpedia dans le cadre d’un prototype mais je l’ai rarement fait pour un projet en production ou alors je me suis limité à quelques triplets dont la présence est systématique (l’hétérogénéité des assertions est une vraie difficulté dans l’exploitation de Dbpedia) et qui ne prêtent à aucune remise en cause.

    Au niveau des technologies du Web sémantique en elles-même :

    Les notions de preuve (Proof) et de confiance (Trust) constituent les deux dernières briques du « Semantic Web layer Cake », elles sont donc au cœur de la réflexion sur le Web sémantique depuis ses origines et font partie des préoccupations du W3C. Ainsi, des travaux sont en cours au sein du W3C pour exprimer la provenance des données (cf. http://www.w3.org/TR/prov-primer/ ), base indispensable pour établir des critères. Dans le cadre des travaux sur RDF 1.1, la notion de « graphe nommé » est débattu, or cette notion est essentielle pour exprimer justement des assertions sur des assertions. A l’heure actuelle, ce n’est pas triviale de faire cela en RDF.

    Enfin pour revenir à dbpedia

    Comme l’a répondu Rémi, les infobox ne sont pas sourcées, c’est donc assez difficile de tracer précisément d’où vient telle ou telle assertion. Certes le chapeau est récupéré, il est parfois sourcé, mais ce n’est pas systématiquement le cas. Pour autant, et là encore aller dans le sens de Rémi, des évolutions du projet sont en cours pour justement exprimées en RDF aussi les historiques de modification et ce n’est pas par hasard, car c’est un des axes de recherche (l’analyse de la controverse) d’Alexandre Monnin, une des personnes à l’origine du projet, ce serait lui faire injure que de dire qu’il ne se préoccupe pas de cette question, après tout est histoire de temps et de besoins. Ne soyons pas plus royalistes que le roi, exploitons déjà les données à notre disposition, il sera toujours temps ensuite d’automatiser la prise en compte ou non des assertions en fonction de critères qu’on donnera à la machine, mais il s’agira toujours de critères objectifs….

  7. 06/12/2012 02:22

    Bonjour,

    Je n’ai pas lu les commentaires, aussi je réagis uniquement au billet initial. J’ignore si vous étiez présent le 19 novembre mais sachez toutefois que les porteurs de ce projet (dont je suis) ne sont pas du tout ignorants de cette difficulté.

    Par ailleurs, personne n’a prétendu de quelconque données « purement objectives » existaient. Au contraire, ce point de vue a été dénoncé.

    Ce dont on débat généralement, c’est justement de l’établissement des faits. La dernières table-rondes de la journée était d’ailleurs consacrée à cette question, qui évoquait les possibilités d’utiliser Wikipédia/DBPedia pour l’analyse des controverses (présentation de Tommaso Venturini du Medialab). Cf. mon billet sur ce point : http://web-and-philosophy.org/mini-manifesto/semanticpedia-dbpedia-et-la-philosophie-du-web-mini-manifeste/

    Sachez également que le DBpédia en français comprendra la sémantisation des historiques et des pages de discussion, chose inédite si l’on compare avec les DBpedia disponibles dans d’autres langues.

    Je travaille enfin sur un projet (WikiSocialEdits, http://www.slideshare.net/aamonnz/wiki-socialedits-lancement-de-semanticpedia) visant à sémantiser à terme TOUS les actes d’éditions de Wikipédia. Y compris l’écriture d’une note. De quoi maintenir dans DBpedia toute la richesse de Wikipédia.

    De cela aussi il fut question, tout au long de la journée.

    Par conséquent, je trouve dommage d’écrire un tel billet alors que nous sommes les seuls à prendre ces questions à bras le corps .

    Bien cordialement,
    Alexandre Monnin.

  8. 06/12/2012 09:03

    @Alexandre Monnin
    Tout d’abord, je ne fais de procès à personne. Il est évident qu’au regard de certains (ceux qui bossent dans le web sémantique depuis des années) je redécouvre la roue après tout le monde.
    Evidemment, donc, les questions que je pose, plein de gens se les sont déjà posées. Mais ces gens, ce n’est généralement ni moi ni ceux qui me lisent sur ce blog (lequel ne s’adresse pas aux informaticiens et professionnels du web des données, mais aux bibliothécaires).
    Ainsi, comme j’ai eu l’occasion de le dire sur Twitter, certains des billets que je publie ici ne sont que des redigestions de billets des Petites Cases datant de 2007. Mais comme entre temps les bibliothécaires (qui sont mon public cible, même si je les perds le plus souvent) n’ont pas forcément évolué beaucoup sur ces questions, cette redigestion tardive, pour moi comme pour eux, n’est peut-être pas inutile.

    Donc je ne prétends rien vous apprendre à vous : je note simplement que moi, pour ma part, je réalise certaines choses maintenant. Et mes collègues bibliothécaires ne sont pour la plupart pas plus avancés que moi.

    J’étais malheureusement absent le 19 novembre : ni mon Université ni mon propre budget ne m’autorisaient un aller-retour sur Paris pour un sujet qui n’est pas, hélas, directement en lien avec les fonctions que j’occupe. Je le regrette, j’aurais certainement appris des choses. D’écrire ce billet me permet de profiter des liens que vous fournissez (et que j’aurais eu bien du mal à trouver par une recherche Google classique : les articles Wikipedia occultent aisément le reste). Donc je ne le regretterai pas, en dépit de mon ignorance des questions que j’aborde : c’est tout l’intérêt des commentaires.

    C’est une excellente nouvelle que votre projet soit de tout sémantisé. Tout ce que, à mon niveau, je constatais, c’est qu’actuellement ce n’était pas le cas, et ça ne l’était pas davantage sur la DBpedia anglophone (que j’ai supposée « en avance » — mais apparemment non ?). De l’absence de ces sources sur la DBpedia anglophone j’ai conclus que pour l’instant cette question n’était pas dans les projets. Je suis enchanté d’être détrompé.

    Je n’ai peut-être pas été clair sur la notion de « données objectives » : je n’ai pas dit que telle était l’intention du projet. J’expose simplement que pour un utilisateur, ça devient des informations qui semblent brutes, donc au maximum de ce que pourrait être la notion d’objectivité. Et donc lu par des internautes (hors contexte « Wikkipedia ») comme définitivement vrai.
    Et cette absence de source reste contradictoire avec le discours que j’ai entendu notamment dans la bouche de Rémi sur l’exigence des sources, qui est un point fort de la Wikipedia et permet de tenir le choc face aux contestations (passées de mode il est vrai).

    Il y a tout de même une particularité de la DBpedia par rapport aux autres données RDF publiées (et là je réponds à la fois à vous-même, à Got et à Rémi) :
    quand j’exploite par exemple les données RDFisées d’un catalogue de bibliothèque, je sais d’où viennent les données : de la bibliothèque.
    Quand j’envisage d’exploiter les données statistiques des Universités françaises extraites de PAPESR, j’en connais aussi l’origine : PAPESR. Bref, le jeu de données interrogé défini le producteur de celles-ci.
    Ce n’est pas du tout le cas de la Wikipedia, qui est un agrégat de sources et compétences diverses.

    Maintenant, je m’empresse de préciser : je ne considère pas que ce soit forcément une priorité dans le projet de sémantisation de Wikipedia. Tant qu’on ne perd pas de vue cette question, c’est déjà bien.

    Sur ce, je vais lire les différents liens que vous avez bien voulu me fournir.

  9. Alexandre Monnin permalink
    06/12/2012 09:37

    Bonjour,

    Mon commentaire ne se voulait pas un argument d’autorité et s’il a été perçu comme tel, eh bien, c’est que j’ai fais passer le mauvais message !

    Mon propos était plutôt le suivant : je suis bien d’accord avec vous sur le fond, et, précisément, c’est pourquoi nous menons une réflexion spécifique – ce qui n’est pas toujours évident.

    Alors quand arrive un commentaire comme celui-ci, c’est toute la plus-value du projet (pas encore apparente, certes, mais il s’agit d’une version beta) qui, bien que ce ne soit pas votre intention, est passée sous silence. Cela peut constituer un frein aux développements en cours en propageant une image qui n’est pas en adéquation avec le souci authentique mis à la résolution de ces problèmes. Car, en effet, il n’est malheureusement pas partagé par tous.

    C’est pourquoi, ayant communiqué lors de cette journée sur les limites actuelles de DBpedia et sur les solutions envisagées pour y pallier*, il était important pour moi de préciser que le projet francophone, pour tardif qu’il soit, parce qu’il repose sur une collaboration étroite avec Wikimédia France et associe un chercheur en SHS (moi-même) et un documentaliste (en fait, ses deux initiateurs au départ), entend justement prendre au sérieux les enjeux qui se posent à nous, et la gestion des sources en est un, majeur.

    Bien cordialement,
    A.M.

    *(je suis navré que vous n’ayez pu venir, les vidéos devraient être accessibles bientôt en ligne, si leur qualité le permet),

  10. 06/12/2012 11:01

    Dans le cas précis de DBPedia, je trouve que l’on peut déléguer la confiance que l’on a de Wikipedia à DBPedia. Ce n’est pas une citation qui me donne confiance à ce qu’il y a dans Wikipedia (http://xkcd.com/978/), c’est certes un peu mon sens critique, mais surtout, c’est l’armée de gens qui vérifie que l’encyclopédie est écrite en respectant un certains nombre de critères que j’ai accepté comme bons (dont les citations ne sont qu’un des éléments), c’est aussi la possibilité d’intervenir personnelement en suivant ces critères (si je ne suis pas d’accord, si je vois que les règles sont mal appliquées).

    Comme DBPedia est une extraction de Wikipedia, les défauts ou erreurs que l’on a dans DBPedia sont les mêmes que ce que l’on a dans Wikipedia. Ces erreurs sont surveillées et corrigées dans Wikipedia par une armée, ce processus est ce qui me donne confiance en Wikipedia. DBPedia est corrigée au fur et à mesure que Wikipedia l’est. Donc on peut faire confiance à DBPedia comme on fait confiance à Wikipedia.

    Je m’intéresse timidement au web sémantique depuis quelques temps et je ne connais pas le problème de la confiance dans le domaine. Cela dit en ce qui concerne DBPedia et juste DBPedia, ça ne me pose pas de problème.

Trackbacks

  1. De la Wikipedia à la DBpedia : on n’a rien perdu en route ? | Mes articles intéressants | Scoop.it
  2. De la Wikipedia à la DBpedia : on n’a rien perdu en route ? | Ebooksinfo | Scoop.it
  3. De la Wikipedia à la DBpedia : on n’a rien perdu en route ? | Digital bibliothèques | Scoop.it
  4. De la Wikipedia à la DBpedia : on n’a rien perdu en route ? | Bibliolab, l'atelier des hybrides | Scoop.it

Les commentaires sont fermés.

%d blogueurs aiment cette page :