[Offenes-Parlament] ETL / Testen / Verwenden für andere Parlamente
Carsten Senger
senger at rehfisch.de
Thu Jul 26 22:30:04 UTC 2012
Hi Friedrich,
Am 25.07.2012 22:56, schrieb Friedrich Lindenberg:
> Hey Carsten,
>
> 2012/7/25 Carsten Senger <senger at rehfisch.de>:
>> * Der ETL-Prozess dauert sehr lange. Kann man den für Tests
>> abzukürzen und z.B. nur einen Teil der Dokumente laden?
>
> Da hast Du recht, das dauert zu lange. Die beste Option erscheint mir,
> jedem scrape eine ID zuzuweisen und dann entsprechend nur die Einträge
> zu laden, die die neueste ETL-ID haben. Das ist aber eine recht
> radikale Änderung, die man wohl durch alle Schichten des ETL-Systems
> ziehen muss. Gibt es etwas einfacheres?
ich hab mir die einzelnen Schritte noch nicht genau angesehen. Die Daten
sollten ja einen Sinn ergeben und die Verknüpfungsfunktionen von OPA
(nettes Akronym :) zeigen. Schwierig, über alle Schritte einen
sinnvollen Teil an Daten auszuwählen. Es hört sich auch zu aufwendig an.
>> * Die Extrakt-Schritte laden die Daten von der Bundestagsseite
>> herunter und werten sie direkt aus. Machte es nicht Sinn, diese
>> als Rohdaten lokal zu speichern, um sich nicht bei einer
>> Codeänderung neu herunterzuladen? Ähnliches gilt für das Laden
>> der Transkripte. Diese werden im transform-Schritt
>> heruntergeladen und direkt mit den Personendaten verknüpft.
>
> In Produktion verwende ich einen forward Squid, der einen Cache von
> einem Tag unabhängig der HTTP-Header forciert. Das ist aber im
> wesentlichen um den BT weniger zu nerven, sollte jedoch auch als
> Dev-Setup Sinn machen. Weil es da eine externe Lösung gibt (die für
> OPA transparent ist) würde ich das gerne extern machen - auch wenn die
> meisten Web-Calls durch die fetch-Methode gehen.
Ja, macht Sinn. Ich werde das einrichten und in die README übernehmen.
>> * Gibt es einen Dump der Daten.
>> http://offenesparlament.de/pages/qualitaet verlinkt auf
>> http://webstore.thedatahub.org/pudo/parlament.db. Den Host gibt
>> es nicht mehr. Verwende ich dafür webstore.openspending.org
>> bekomme ich eine 200 OK / Content-Type application/x-sqlite3,
>> aber leider 0 Byte groß.
>
> Der Link ist echt Kaputt: die ETL-DB war mal eine SQLite die nur per
> REST angesprochen wurde, aber damit dauerte der ETL irgendwas um die 4
> Tage - kaum praktikabel. Ich werden ASAP einen Job auf dem aktuellen
> Server einrichten um die ETL-Postgres regelmässig zu dumpen. Hier ist
> mal ein one-off:
>
> http://opendatalabs.org/bund/parlament/parlament_etl-20120725.sql.gz
Ich kann das auch einrichten. Aus Eigennutz ;)
Danke für die Daten. Ich werd sie gleich mal durchjagen und bei
Gelegenheit den ETL-Kram auf einem System mit besserer Netzwerkanbindung
und caching proxy nochmal testen.
>> * Ich überlege, offenesparlament für den Hessischen Landtag zu
>> verwenden. Die ETL-Schritte muss natürlich neu geschrieben
>> werden. Die Modelle sehen soweit gut aus. Spricht etwas
>> dagegen, offenesparlament dafür zu verwenden?
>
> Hm, mich hat OffenerHaushalt in dieser Hinsicht kritisch gemacht, aber
> da sind wir auch einen viel radikaleren Ansatz gefahren. Auf jeden
> Fall solltest Du von OffenesParlament ausgehen (auch wenn die Codebase
> eine gewisse pudoqualität hat), aber dann würde ich mich nicht wundern
> wenn es irgendwann Sinn macht zu forken.
Wenn's denn irgendwann sein soll. Im Moment bin ich dezent optimistisch,
dass das trotzdem geht.
Viele Grüße,
..Carsten
--
Carsten Senger - Schumannstr. 38 - 65193 Wiesbaden
senger at rehfisch.de - (0611) 5324176
PGP: gpg --recv-keys --keyserver hkp://subkeys.pgp.net 0xE374C75A
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 490 bytes
Desc: OpenPGP digital signature
URL: <http://lists.okfn.org/pipermail/offenes-parlament/attachments/20120727/146eb90d/attachment.sig>
More information about the offenes-parlament
mailing list