Feedextrator für meinen River of News

Ich hatte ja neulich schon mal erwähnt, dass Feedburner demnächst die Pforten dicht macht und Feed43 ja auch eine zentrale Lösung ist, von der ich abhängig bin.

Das habe ich nun geändert mit Feedextrator. Dabei handelt es sich um ein - bis jetzt noch - recht einfaches Perlscript, dass Webseiten abholt und anhand von konfigurierbaren Regeln Teile davon extrahiert und einen Feed daraus erzeugt. Das Funktionsprinzip habe ich Feed43.com abgekupfert. Ich brauche das in folgenden Fällen:

Mit dem Script habe ich diese ganzen Fälle jetzt erschlagen. Das Script ist noch nicht paketiert usw, ist aber OpenSource (Perl Lizenz, wie üblich bei mir) und kann hier schon mal runtergeladen/angeschaut werden:

Auf der River-About Seite sind ja alle Feeds aufgelistet. Die RSS Links unter dem Icon links zeigen jeweils entweder auf den original Feed oder auf den von meinem Script generierten. Hier mal als Beispiel der Feed von Al Daily/river/feed/rss/50/.

Update 2012-10-01:

Ich habe den Feedextrator nochmal erweitert, man kann da jetzt in der Config auch den Cookieheader angeben. Ganz konkret benutze ich das, um mir den Feed von L abzuholen. Im Falle dieses Forums ist der Feed zwar öffentlich sichtbar, aber es handelt sich um ein Burningboard. Da gibts auch mal Threads die man nur als angemeldeter User sehen kann, was für den Feed natürlich auch gilt. Da das Python Feedparser Modul aber eine solche Anmeldung nicht kann, mach ich es so. Ganz konkret habe ich einfach beim Login ins Forum mit dem Addon Liveheaders zugeguckt und mir dort den Cookieheaderwert rausgeholt. Ab in die Config und schwupp hab ich den kompletten Thread hier im River.

Mächtig gewaltig, wie Benny von der Olsenbande immer zu sagen pflegte...

#river

↷ 29.09.2012