Feedextrator für meinen River of News
Ich hatte ja neulich schon mal erwähnt, dass Feedburner demnächst die Pforten dicht macht und Feed43 ja auch eine zentrale Lösung ist, von der ich abhängig bin.
Das habe ich nun geändert mit Feedextrator. Dabei handelt es sich um ein - bis jetzt noch - recht einfaches Perlscript, dass Webseiten abholt und anhand von konfigurierbaren Regeln Teile davon extrahiert und einen Feed daraus erzeugt. Das Funktionsprinzip habe ich Feed43.com abgekupfert. Ich brauche das in folgenden Fällen:
- wenn ein Feed kein pubDate liefert (ich sortiere im River ja zeitlich), wie zum Beispiel Fefe.
- wenn ein Feed nur kurze Überschriften oder Snippets und keinen Volltextfeed liefert, wie zum Beispiel Nils Bloghaus.
- wenn eine Seite gar keinen Feed anbietet, wie zum Beispiel Al Daily.
- oder wenn eine Seite einen Feed ausliefert, der von Feedburner generiert wird.
Mit dem Script habe ich diese ganzen Fälle jetzt erschlagen. Das Script ist noch nicht paketiert usw, ist aber OpenSource (Perl Lizenz, wie üblich bei mir) und kann hier schon mal runtergeladen/angeschaut werden:
- Feedextrator Perl Script extract.pl
- Configuration für den Feedextrator feed.conf
Auf der River-About Seite sind ja alle Feeds aufgelistet. Die RSS Links unter dem Icon links zeigen jeweils entweder auf den original Feed oder auf den von meinem Script generierten. Hier mal als Beispiel der Feed von Al Daily: /river/feed/rss/50/.
Update 2012-10-01:
Ich habe den Feedextrator nochmal erweitert, man kann da jetzt in der Config auch den Cookieheader angeben. Ganz konkret benutze ich das, um mir den Feed von LMächtig gewaltig, wie Benny von der Olsenbande immer zu sagen pflegte...