Skip to content

Bouillon collaboratif : dédoublonnage

30/09/2009

Voir les billets précédents sur le Bouillon des bibliobsédés 2.0 :

S’abonner au Bouillon (RSS)

Dans les 15-20 sources, il y a forcément des informations qui seront signalées plusieurs fois par les veilleurs.

Les objectifs étaient

  1. de les dédoublonner
  2. de faire valoir le nombre de fois où la même info était partagée (le taux de recommandation rend à peu près compte de l’importance, intelligence, pertinence de l’info)
  3. d’indiquer, dans l’item dédoublonné, par qui il avait été partagé.
  4. de conserver éventuellement les commentaires rédigés par les différents veilleurs.

Pour ce billet, on verra juste les deux premiers points

Module Unique (dédoublonnage)

Yahoo Pipes propose un module de dédoublonnage, sur un seul critère

Rappelons qu’à la source, on a une fusion de 17 flux RSS où les items ont été retriés par date de publication. S’y trouvent donc des billets, articles , etc. identiques, partagés plusieurs fois.

Cela constitue un gros fichier XML de 100 à 200 items, comportant chacun :

  • un titre (item.title)
  • une URL (item.link)
  • une « description » (item.description) = contenu du billet
  • une date de publication (item.pubDate)
  • une « origine » (rajoutée à la source) = nom du veilleur

Le critère URL du billet (item.link) est le plus pertinent pour dédoublonner, évidemment.

Le module Unique fonctionne de la manière suivante :

  • Pour chaque item, il prend en compte le lien.
  • Il regarde dans la suite du fichier XML traité s’il y a des liens identiques.
  • S’il en trouve, il les supprime.
  • Dans le  1er item rencontré, le seul conservé, il stocke dans un nouveau champ item.y:repeatcount le nombre de fois où il a repéré le même lien.

Indication du nombre de recommandations

La valeur du champ item.y:repeatcount doit être ajoutée au titre, entre parenthèses.

Pour cela, on utilise une boucle (Loop) : pour chaque item, on concatène :

  • le titre
  • suivi d’une parenthèse « ( » avec le signe « + »
  • suivi de l’indication du nombre de fois où l’item aura été partagée
  • suivi de la parenthèse fermante « ) »

Et cette concaténation est mise comme nouveau titre

Ce qui donne :

Problèmes

Le module Unique ne conserve que le premier item rencontré.

Donc si, en dehors du critère « item.link », il y avait des informations différentes dans les différents items dédoublonnés, celles stockées dans les items supprimés sont oubliées.

Par exemple :

Un veilleur utilise Google Reader (appelons-le Lully) pour partager sa veille, un autre utilise Delicious (appelons-le Couperin1).
Ils partagent par hasard le même billet.
Si Lully a le premier mis ce billet en partage, celui-ci se retrouvera fusionné dans le pipe commun, avec dans le champ « Description » l’intégralité du billet.
Ensuite Couperin partage ce billet à son tour. Lors du dédoublonnage, c’est celui de Couperin qui sera conservé.
Or dans Delicious le champ « Description » n’est renseigné qu’avec la description éventuellement mise par le veilleur.
Donc dans le résultat final, l’item ne fournira plus le contenu du billet

Donc selon l’ordre dans lequel le même billet a été partagé, vous retrouverez son contenu dans le Bouillon… ou non.

Autre problème : dans l’item final, le seul champ « Origine » conservé sera celui du dernier veilleur, le billet eût-il été partagé 8 fois !

De même, si les 8 veilleurs ont rajouté un commentaire lors du partage, seul le plus récent sera conservé.

Bref, une perte d’information importante dans le cadre d’une veille collaborative (puisqu’elle rend compte et légitime le résultat final).

Donc les prochaines fois, on verra les plus gros morceaux : récupération de la liste des « origine », et de la liste des « commentaires ». Sachant que j’ai aussi plusieurs autres billets à finir…

___________________________

1. Parce que c’est un autre compositeur de l’époque moderne.

Publicités
%d blogueurs aiment cette page :