Aller au contenu principal

Yahoo Pipes : tutoriel 8 (manipulation complexe de fils RSS)

26/05/2009

Liste des tutoriels Yahoo Pipes

Cette fois-ci, plutôt que de créer un fil RSS — ce qui est très bien, très pédagogique, mais ne permet pas de faire des choses complexes — je vous propose d’en regarder un existant, qui soit complexe, pour le décortiquer.

En l’espèce, celui de @jsicot sera très bien. Ce pipe permet de faire une veille simultanée sur 7 services de gestion de favoris en ligne.

Pour faire une veille thématique (par exemple sur les archives ouvertes), il peut être très intéressant de se tenir au courant de ce qui intéresse les autres, donc de suivre l’enrichissement de bases comme Delicious ou Connotea. Mais deux constatations s’imposent :

  1. il existe un certain nombre de services en ligne
  2. il existe plusieurs termes susceptibles de servir de tags pour désigner des domaines de veille comme celui-ci : archivesouvertes, archives_ouvertes, ao, oai, open_archives, openarchives, etc.

Cela représente donc beaucoup de fils RSS

Le fonctionnement du pipe de @jsicot est :

  1. de mettre dans un champ unique tous les termes susceptibles de servir de tags, avec un séparateur spécifique (la virgule, ou le point-virgule).
  2. pour chaque terme saisi (le nombre est variable), de l’envoyer à chacun des services de gestion de favoris en ligne (il en a paramétré 7)
  3. de récupérer les fils RSS correspondants, de les fusionner
  4. de les dédoublonner (sur le critère de l’URL)

La principale difficulté est dans la 2e et la 3 étape : il faut faire des boucles (module « loop ») pour que, pour chaque terme (1ère boucle) et pour chaque service (2e boucle) il y ait un fil RSS généré. La fusion de fils RSS ne devrait en elle-même pas être un problème : c’était l’objet du premier tutoriel.

Voyons à présent ce que ça donne.

Voir la vidéo

Le pipe présenté est ici.

PS : toujours la même remarque qu’avant. Vous êtes invité à réagir si ce n’est pas clair. Vous pouvez me demander aussi de refaire la même chose avec un autre pipe (plus simple ou plus complexe, ou un que vous auriez trouvé et que vous aimeriez comprendre, etc.).

PS 2 : notez que ce pipe ne contient pas d’expressions régulières. Mine de rien, j’essaie de séparer les difficultés 😉

12 commentaires
  1. 28/05/2009 07:54

    Bonjour et bravo pour cette explication (qui me permet de découvrir un outil jusqu’à alors inconnu).
    Il est pourtant trop complet (un outil peut-il être trop complet ?) à mon gout, car on s’approche plus d’un outil de développeur que d’un outil de surveillance à mon sens.

    Cela ne serait-il pas plus simple :
    – de se confectionner un « planet » pour suivre les actus de plusieurs sites important
    – ou d’utiliser les alertes googles.

    Cordialement
    Gilles

  2. 28/05/2009 08:33

    @Masterfight : en fait, pour certaines manipulations il y a bien évidemment des solutions alternatives, parfois plus simples, que Yahoo Pipes.
    Ce que j’essaie de faire avec cette série de tutoriels, c’est d’amener ceux qui les regardent à maîtriser suffisamment cet outil à créer eux-mêmes ce genre d’outils : pq à mon sens ça correspond à un réel besoin dans les bibliothèques, et tous les catalogues de bib « mériteraient » d’en avoir un.
    [par ailleurs, être capable de faire ça avec Yahoo Pipes signifie avoir la maîtrise pour faire pas mal d’autres choses avec.]
    Et pour arriver à ça, je passe par certaines étapes qui, en soi, peuvent sembler n’avoir pas grand intérêt pour certains.

    On s’en approche progressivement…

  3. 28/05/2009 09:07

    Je ne voulais pas dire que c’était un outil inutile (désolé si je me suis mal exprimé).

    Il est évident qu’il peut, et va intéresser une certaine catégorie de bloggeurs.
    Je réagissais en fait quant à la visible complexité de l’outil et n’avais nullement l’intention de dénigrer votre article.

    Avec mes excuses.

  4. 28/05/2009 09:29

    @Masterfight : tiens, je ne pensais pas donner l’impression que je l’avais mal pris ! 🙂
    Je suis bien évidemment d’accord avec vous sur la complexité de l’outil, sur l’absence de documentation en français, et sa quasi-inexistence en anglais — d’où d’ailleurs ces tutoriels.
    Si Yahoo Pipes était simple d’usage, je ne passerais pas tant de temps à l’expliquer !
    Et par ailleurs ses potentialités en font effectivement un outil plutôt pour développeurs. Il utilise également des concepts (comme les boucles ou le debugger) qui ne sont pas naturels pour tout le monde.

    La solution ? Faire de tout internaute un développeur en puissance ! 😉

  5. 12/06/2009 15:53

    J’aurais ajouté FriendFeed (http://friendfeed.com/ ) dans les solutions. C’est formidable pour regrouper les informations et discuter. La communauté « The Life Scientists » en est un bon exemple: http://friendfeed.com/the-life-scientists

    Pierre

  6. Mike permalink
    04/12/2011 17:25

    Bonjour !

    Lorsque je place dans le module « Fetch Feed » un des flux d’Usine Nouvelle (hormis « A la une »), j’ai un message d’erreur de ce type :

    « Error fetching http://rss.usinenouvelle.com/industrie-automobile: Invalid XML document: org.xml.sax.SAXParseException: The entity « eacute » was referenced, but not declared. »

    Voici l’adresse du flux RSS que j’ai utilisé : http://rss.usinenouvelle.com/industrie-automobile

    Quelque chose peut être fait pour que Yahoo Pipes accepte ce flux RSS ou c’est sans espoir ?

    Merci pour toute réponse.

    Cordialement,
    Mike

  7. 05/12/2011 16:43

    @Mike : je ne sais pas si je vais pouvoir vous fournir une explication compréhensible.
    Les fichiers XML (les flux RSS sont des fichiers XML) obéissent à des règles plus restrictives que les fichier HTML (que sont les pages web).
    Pour afficher des diacritiques, les pages HTML utilisent généralement au choix :
    l’encodage UTF-8, qui passent très bien dans un flux RSS
    l’encodage iso-8859-1, dans lequel le "é" par exemple est codé : é

    Et le RSS ne veut pas de ce genre d’encodage.
    Donc Usine Nouvelle ne respecte pas certaines règles des flux RSS pour les titres de ses items.
    Tout ce qu’il vous reste à faire, c’est à attendre que l’item problématique (celui intitulé « PSA voit une baisse du marché automobile européen en 2012 ») disparaisse bientôt du flux, remplacé par les nouvelles suivante.

    Si vous utilisez un éditeur XML (comme XML Copy Editor, gratuit et open source, et que vous lui demandez d’ouvrir ce flux RSS, il vous signalera la même erreur)

  8. Mike permalink
    06/12/2011 09:25

    Merci Etienne pour ta réponse.

    Je comprends ce que tu veux dire. En revanche je n’ai pas beaucoup d’espoir que la situation s’améliore parce que même si l’item problématique descend, il sera vite remplacé par un autre tout aussi problématique. Hormis le flux général d’actualité (qui ne reprend hélas pas toutes les nouvelles, loin de là), tous leurs flux ont un ou plusieurs problèmes. XML Copy Editor le révèle très bien.

    Ce qui est étrange c’est que Netvibes ne fait pas autant le difficile. Je peux voir le flux. Mais j’aimerais bien le retoucher, ce que je ne peux pas faire sans Yahoo Pipes…
    Et j’imagine qu’Usine Nouvelle n’est pas la seule source à avoir des flux RSS problématiques. Tout ça est bien embêtant.

    Encore merci !

  9. 06/12/2011 09:33

    @Mike : les agrégateurs les plus connus (que ce soit la visualisation d’un flux RSS dans Firefox ou Google Reader, Netvibes, etc.) tiennent compte du web tel qu’il est, et donc intègrent la « correction » des pages reçues.
    Des outils comme Yahoo Pipes sont développés dans d’autres directions.
    Une solution à tester : faire avaler le flux RSS problématique à FeedBurner, et lui demander de le republier
    avec dans l’onglet Optimize, activer la fonction « Convert Format Burner ». Feedburner devrait ainsi produire un flux RSS plus correct.

  10. Mike permalink
    06/12/2011 10:24

    Malheureusement FeedBurner ne me laisse pas arriver jusqu’à l’onglet Optimize. Il coince dès le départ, sans possibilité d’aller plus loin. Ou alors je m’y prends mal.

Trackbacks

  1. Sélection de la semaine (weekly) | Demain la veille
  2. Un pipe pour une veille autour des revues en sciences humaines « Encore un biblioblog…

Commentaires fermés