Accueil > astuces, Tutoriel > Créer des flux RSS grâce à Feed43

Créer des flux RSS grâce à Feed43

Récemment je me suis vu confronté à un nouveau problème : je cherchais des tests de boitiers PC, je vais donc sur le site revioo.com, et je vais donc voir l’actualité du monde des boitiers. Quelle ne fut pas ma stupeur (on croirait presque qu’il y a de l’action la…) de me rendre compte qu’il n’y avait pas de flux RSS spécifique à cette catégorie (bon c’est généralisable à toutes les catégories en fait, pas de racisme envers les boitiers).

J’ai donc cherché un moyen de créer un flux RSS à partir d’une page web, et voici ce que j’ai trouvé : Feed43.

Comme il n’est pas forcément très simple d’utilisation pour tout le monde, je me propose de vous faire un petit tutorial à l’aide de mon exmple précis, qui ne fonctionnera donc pas pour tout le monde, mais qui donne tout de même une idée sur la façon de faire.

Donc après avoir accepté les « terms of service » (que je n’ai pas lu, honte à moi), il vous invite cordialement (enfin aussi cordialement qu’une textbox puisse l’être) de lui fournir l’URL et l’encodage de la page.

Le code source de la page

Un clic sur le bouton « Reload » permettra l’affichage du code source de la page. C’est sur ce code source que se basera le plus gros du travail, en effet il est nécessaire de spécifier quels sont les éléments de la page qui sont intéressants et seront utilisés dans le flux RSS, typiquement le titre de la news, son URL (of course) et le résumé de la description. Info sommes toutes relativement basiques, si vous voulez l’article complet dans le flux ce n’est pas la solution qu’il vous faut, mais avouons-le pour des tests de boitiers ce n’est pas vraiment pertinent, donc je m’en contenterais.

Le choix des règles à utiliser

Donc c’est maintenant que les choses se compliquent un peu (bon pas trop quand même). Un minimum de connaissances en HTML seront nécessaires pour cette étape.

La première zone de texte permet de définir quelle sera la zone qui sera traitée par le second filtre. Il faudra donc repérer dans le code source où sont les éléments importants. Si cette zone n’est pas définie, la recherche se fera sur toute la page. La seconde quant à elle permet de définir les différents éléments constituant la news en elle même. La chaine {%} permet de définir un élément qui sera traité, {*} un élément qui sera ignoré.

Dans mon cas, voici le bout de code intéressant :

<ul class=“title_newshome”>
<li><h1><a href=“%lien_vers_la_news%” title=“%titre_de_la_news%” >
%titre_de_la_news%</a></h1>
<p><span>%date_de_la_news%</span> | %description_de_la_news%</p></li>
<li><a href=“http://www.revioo.com/news/” title=“Lire la suite de l’actualité informatique et multimédia”>[ Suite des news … ]</a></li>
</ul>

Pour simplifier, je définis ma zone d’étude par :

<ul class=“title_newshome”>{%}</ul>

(en vérifiant bien évidemment à l’avance que la zone voulue est la seule zone de ce type, sinon on devra être plus restrictif)

Les news en elles-même seront définies comme suit :

<h1><a href= »{%} » title= »{%} » >
{*}</a></h1>{*}<p><span>{%}</span> | {%}</p>

Un petit clic sur le bouton « Extract » permet de vérifier que les informations retenues sont effectivement celles que l’on souhaitaient.

Visualisation des éléments constituants le flux

On voit alors que les différents éléments sont repérés chacun par un numéro qui sera utilisé dans la dernière étape, la création du flux en lui-même. Il faut en effet lui spécifier quel élément sera utilisé comme titre, lien…

Définition du flux

Il est donc possible de vraiment parsonnaliser son flux, ce que je n’ai pas souhaité faire, préférant m’en tenir au plus simple sans aucune fioriture.

Encore une fois un bouton de prévisualisation est présent, pour vérifier qu’on obtient bien ce qu’on veut. Une URL est alors fournie pour ajouter ce flux à son lecteur préféré, ainsi qu’une URL permettant de modifier le flux, ce qui permet de le mettre à jour en cas de changement du site rssisé (ouh qu’il est laid ce néologisme) ou alors si à l’usage vous vous appercevez que quelques améliorations sont à apporter.

Finalement pour peu qu’on ait un minimum de connaissances en HTML, cette solution est assez facile à utiliser, et elle présente le gros avantage d’être extrèmement puissante, on peut vraiment traiter à peu près n’importe quel site. La plus grande difficulté étant parfois de « parser » le site, si celui-ci a été codé de manière… on va dire peu inuitive. Il est même possible que je m’en serve pour certains site auxquels je suis abonné et dont le flux ne me convient pas (article pas complet, pas d’affichage de l’image).

Publicités
Catégories :astuces, Tutoriel Étiquettes :
  1. adrien
    6 décembre 2012 à 22:15

    Bonjour, merci pour cet exposé! très clair, mais mes connaissances sont insuffisant pour comprendre.
    Comment puis-je extraire des photo? comment est ce nommé en html? Je cherche a crée un flux rss pour une page followgram.
    Merci pour votre aide.

  1. No trackbacks yet.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :