[Offenes-Parlament] ETL / Testen / Verwenden für andere Parlamente

Friedrich Lindenberg friedrich.lindenberg at okfn.org
Wed Jul 25 20:56:08 UTC 2012


Hey Carsten,

2012/7/25 Carsten Senger <senger at rehfisch.de>:
> * Der ETL-Prozess dauert sehr lange. Kann man den für Tests
>   abzukürzen und z.B. nur einen Teil der Dokumente laden?

Da hast Du recht, das dauert zu lange. Die beste Option erscheint mir,
jedem scrape eine ID zuzuweisen und dann entsprechend nur die Einträge
zu laden, die die neueste ETL-ID haben. Das ist aber eine recht
radikale Änderung, die man wohl durch alle Schichten des ETL-Systems
ziehen muss. Gibt es etwas einfacheres?

> * Die Extrakt-Schritte laden die Daten von der Bundestagsseite
>   herunter und werten sie direkt aus. Machte es nicht Sinn, diese
>   als Rohdaten lokal zu speichern, um sich nicht bei einer
>   Codeänderung neu herunterzuladen?  Ähnliches gilt für das Laden
>   der Transkripte. Diese werden im transform-Schritt
>   heruntergeladen und direkt mit den Personendaten verknüpft.

In Produktion verwende ich einen forward Squid, der einen Cache von
einem Tag unabhängig der HTTP-Header forciert. Das ist aber im
wesentlichen um den BT weniger zu nerven, sollte jedoch auch als
Dev-Setup Sinn machen. Weil es da eine externe Lösung gibt (die für
OPA transparent ist) würde ich das gerne extern machen - auch wenn die
meisten Web-Calls durch die fetch-Methode gehen.

> * Gibt es einen Dump der Daten.
>   http://offenesparlament.de/pages/qualitaet verlinkt auf
>   http://webstore.thedatahub.org/pudo/parlament.db. Den Host gibt
>   es nicht mehr. Verwende ich dafür webstore.openspending.org
>   bekomme ich eine 200 OK / Content-Type application/x-sqlite3,
>   aber leider 0 Byte groß.

Der Link ist echt Kaputt: die ETL-DB war mal eine SQLite die nur per
REST angesprochen wurde, aber damit dauerte der ETL irgendwas um die 4
Tage - kaum praktikabel. Ich werden ASAP einen Job auf dem aktuellen
Server einrichten um die ETL-Postgres regelmässig zu dumpen. Hier ist
mal ein one-off:

http://opendatalabs.org/bund/parlament/parlament_etl-20120725.sql.gz

> * Ich überlege, offenesparlament für den Hessischen Landtag zu
>   verwenden. Die ETL-Schritte muss natürlich neu geschrieben
>   werden. Die Modelle sehen soweit gut aus. Spricht etwas
>   dagegen, offenesparlament dafür zu verwenden?

Hm, mich hat OffenerHaushalt in dieser Hinsicht kritisch gemacht, aber
da sind wir auch einen viel radikaleren Ansatz gefahren. Auf jeden
Fall solltest Du von OffenesParlament ausgehen (auch wenn die Codebase
eine gewisse pudoqualität hat), aber dann würde ich mich nicht wundern
wenn es irgendwann Sinn macht zu forken.

Viele Grüße,

 - Friedrich




More information about the offenes-parlament mailing list