Reverse Engineering HTML to RSS

Einfach ist es nicht eine HTML Quelle in eine RSS Quelle zu transformieren.
Aber es geht unter bestimmten Voraussetzungen.

Werfen wir doch mal einen Blick auf Deutsche Gesellschaft für Ad Hoc Publizität

Hier die Archiv Datei vom 7.1.2006 (nur HTML, no CSS, no Bilder).
Wäre es nicht schoen wenn es fuer diese Liste einen RSS gäbe?
Kurz um, jetzt gibt es einen zum Selber Stricken.
1. Schau dir den Quelltext der DGAP einmal an.
2. Finde heraus wie man das nützliche vom unnützen trennen kann.
3. Wandle das nützliche nach RSS um.
4. Find einen Weg um das umwandeln und veröffentlichen von deinem RSS zu automatisieren.

Hört sich doch einfach an, oder?

War dann aber doch nicht so einfach und ist auch noch nicht ganz fertig.

In 5.4.2 lernten wir, wie man eine fremde Datei mittels XMLhttp abrufen kann. Das habe ich hier analog auch gemacht.
Meine Quelltext Analyse ergab, das sich das nützliche zwischen
<!-- #### MELDUNGSLISTE START #### --> und <!-- #### MELDUNGSLISTE ENDE #### --> befindet.
Ich schrieb also eine Funktion um das nützliche zu extrahieren.

Code Extract:
QuelltextNuetzlicher Text
Ich habe dem nützlichen Text noch ein "table" drumerumverpasst, damit ich es später als Tabelle auswerten kann. Hinter dgap_html verbirgt sich nichts weiter als <div id="dgap_html"></div>. Den vollständigen Quelltext gibt's hier und weiter unten.

Den fertigen RSS Text muss man dann noch in einer Datei, Datenbank oder was auch immer speichern. Ein bisschen Try und Error gehört auch dazu. Ich selbst habe den RSS Text auf einem Client erstellt, also entwickle ich noch einen Button um das ganze auf meinen Server hochzuladen. Das hier ist die fertige RSS Datei (20.1.06) im RSS format und dann nehme ich wieder den fremden RSS to HTML Service.
Vermutlich wegen fehlender Escape zeichen verweigert der Internet Explorer die Anzeige der RSS Datei.

Download DGAP_TO_RSS.HTA

Geschrieben am 7.1.2006 von Matthias Jungbauer