[Offenes-Parlament] ETL / Testen / Verwenden für andere Parlamente

Carsten Senger senger at rehfisch.de
Thu Jul 26 22:30:04 UTC 2012


Hi Friedrich,

Am 25.07.2012 22:56, schrieb Friedrich Lindenberg:
> Hey Carsten,
> 
> 2012/7/25 Carsten Senger <senger at rehfisch.de>:
>> * Der ETL-Prozess dauert sehr lange. Kann man den für Tests
>>   abzukürzen und z.B. nur einen Teil der Dokumente laden?
> 
> Da hast Du recht, das dauert zu lange. Die beste Option erscheint mir,
> jedem scrape eine ID zuzuweisen und dann entsprechend nur die Einträge
> zu laden, die die neueste ETL-ID haben. Das ist aber eine recht
> radikale Änderung, die man wohl durch alle Schichten des ETL-Systems
> ziehen muss. Gibt es etwas einfacheres?

ich hab mir die einzelnen Schritte noch nicht genau angesehen. Die Daten
sollten ja einen Sinn ergeben und die Verknüpfungsfunktionen von OPA
(nettes Akronym :) zeigen. Schwierig, über alle Schritte einen
sinnvollen Teil an Daten auszuwählen. Es hört sich auch zu aufwendig an.


>> * Die Extrakt-Schritte laden die Daten von der Bundestagsseite
>>   herunter und werten sie direkt aus. Machte es nicht Sinn, diese
>>   als Rohdaten lokal zu speichern, um sich nicht bei einer
>>   Codeänderung neu herunterzuladen?  Ähnliches gilt für das Laden
>>   der Transkripte. Diese werden im transform-Schritt
>>   heruntergeladen und direkt mit den Personendaten verknüpft.
> 
> In Produktion verwende ich einen forward Squid, der einen Cache von
> einem Tag unabhängig der HTTP-Header forciert. Das ist aber im
> wesentlichen um den BT weniger zu nerven, sollte jedoch auch als
> Dev-Setup Sinn machen. Weil es da eine externe Lösung gibt (die für
> OPA transparent ist) würde ich das gerne extern machen - auch wenn die
> meisten Web-Calls durch die fetch-Methode gehen.

Ja, macht Sinn. Ich werde das einrichten und in die README übernehmen.


>> * Gibt es einen Dump der Daten.
>>   http://offenesparlament.de/pages/qualitaet verlinkt auf
>>   http://webstore.thedatahub.org/pudo/parlament.db. Den Host gibt
>>   es nicht mehr. Verwende ich dafür webstore.openspending.org
>>   bekomme ich eine 200 OK / Content-Type application/x-sqlite3,
>>   aber leider 0 Byte groß.
> 
> Der Link ist echt Kaputt: die ETL-DB war mal eine SQLite die nur per
> REST angesprochen wurde, aber damit dauerte der ETL irgendwas um die 4
> Tage - kaum praktikabel. Ich werden ASAP einen Job auf dem aktuellen
> Server einrichten um die ETL-Postgres regelmässig zu dumpen. Hier ist
> mal ein one-off:
> 
> http://opendatalabs.org/bund/parlament/parlament_etl-20120725.sql.gz

Ich kann das auch einrichten. Aus Eigennutz ;)

Danke für die Daten. Ich werd sie gleich mal durchjagen und bei
Gelegenheit den ETL-Kram auf einem System mit besserer Netzwerkanbindung
und caching proxy nochmal testen.


>> * Ich überlege, offenesparlament für den Hessischen Landtag zu
>>   verwenden. Die ETL-Schritte muss natürlich neu geschrieben
>>   werden. Die Modelle sehen soweit gut aus. Spricht etwas
>>   dagegen, offenesparlament dafür zu verwenden?
> 
> Hm, mich hat OffenerHaushalt in dieser Hinsicht kritisch gemacht, aber
> da sind wir auch einen viel radikaleren Ansatz gefahren. Auf jeden
> Fall solltest Du von OffenesParlament ausgehen (auch wenn die Codebase
> eine gewisse pudoqualität hat), aber dann würde ich mich nicht wundern
> wenn es irgendwann Sinn macht zu forken.

Wenn's denn irgendwann sein soll. Im Moment bin ich dezent optimistisch,
dass das trotzdem geht.


Viele Grüße,

..Carsten

-- 
Carsten Senger - Schumannstr. 38 - 65193 Wiesbaden
senger at rehfisch.de - (0611) 5324176
PGP: gpg --recv-keys --keyserver hkp://subkeys.pgp.net 0xE374C75A



-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 490 bytes
Desc: OpenPGP digital signature
URL: <http://lists.okfn.org/pipermail/offenes-parlament/attachments/20120727/146eb90d/attachment.sig>


More information about the offenes-parlament mailing list