Am biruit un cvs (dat tot as mai vrea si ods)

Ioan Fericel mirabit la gmail.com
Lun Feb 10 13:24:40 UTC 2014


On 02/02/2014 03:32 AM, Strainu wrote:
> În data de 30 decembrie 2013, 20:21, Dan Matei <Dan la cimec.ro> a scris:
>> http://data.gov.ro/dataset/repertoriul-arheologic-national-2013-12-30
>
> Bună seara,
>
> Cum weekendurile din februarie sunt mai pline decât metroul la ora de
> vârf, am zis să pun mâna să parsez datele astea până nu apare
> versiunea următoare :D
>
> Câteva observații la cald (mai ales în comparatie cu ce am avut la
> dispoziție când am introdus prima dată datele în Wikipedia), scrise
> chiar în timp ce codez:
>
> 0. DISCLAIMER: de la 1 încolo s-ar putea să devin foarte tehnic
>
> 1. Câmpurile sunt mult mai bine delimitate și multe mai clar grupate.
> În plus, fiecare element are cod RAN, chiar dacă acestea nu-s unice.
>
> 2. Coordonatele zecimale fac toți banii!
>
> 3. Cineva de pe la Wikipedia găsise un URL standard în care variai
> codul RAN și putea fi folosit pentru invocarea directă a paginii ce
> descria situl. Care este motivul pentru care URL-urile de aici includ
> și numele?
>
> 4. Din punct de vedere al automatizării ar fi mai OK ca atunci când un
> URL este greșit (nu este găsit codul), serverul să întoarcă codul HTTP
> "404 Not Found" sau măcar un "303 See Other" în loc să dea "200 OK" și
> să-ti arate lista.
>
> 5. Nu înțeleg de ce unele intrări au 2 coduri RAN (de ex linia 24713
> are la cod "43420.22 43420.21"). N-ar trebui să existe 2 intrări
> pentru aceste cazuri? După cum era de așteptat, nici URL-ul
> corespunzător nu merge.
>
> 6. Existența unui id de complex nu ar trebui să presupună existența
> unui id de ansamblu? În 2012 așa era...
>
> 7. De ce există intrări cu id de ansamblu dar fără cod RAN ansamblu?
> (de ex. linia 5802)
>
> 8. UAT-urile nu au diacritice și sunt cu majuscule; localitățile și
> județele în schimb sunt OK.
>
> 9. Există erori (dar puține totuși):
> 9.1 Județele Caraș-Severin și Bistrița-Năsăud se scriu cu cratimă
> 9.2. Sunt niște coduri LMI cu erori sau care nu mai sunt valide. Lista
> este mai jos (nu reușesc s-o trimit ca atașament):
>
> Andrei
>
> Codul BN-I-s-A-20380 nu a fost găsit în baza de date LMI
> Codul B-I-s-B-17885 nu a fost găsit în baza de date LMI
> Codul NT-I-m-B-10537.07 nu a fost găsit în baza de date LMI
> Codul NT-I-m-B-10540.04 nu a fost găsit în baza de date LMI
> Codul IS-I-s-B-03664 nu a fost găsit în baza de date LMI
> Codul BN-I-s-B-20377 nu a fost găsit în baza de date LMI
> Codul BN-I-s-B-20378 nu a fost găsit în baza de date LMI
> Codul BN-I-s-B-20383 nu a fost găsit în baza de date LMI
> Codul Bn-I-m-A-01283.02 conține erori de formatare
> Codul BN-I-s-B-20379 nu a fost găsit în baza de date LMI
> Codul CT-I-s-A-02600.01 nu a fost găsit în baza de date LMI (7 apariții)
> Codul TL-I-m-B-05898.06 nu a fost găsit în baza de date LMI
> Codul BV-I-s-B-11272 nu a fost găsit în baza de date LMI
> Codul NT-I-m-B-10516.01 nu a fost găsit în baza de date LMI
> Codul NT-I-m-B-10516.02 nu a fost găsit în baza de date LMI
> Codul NT-I-s-B-10525 nu a fost găsit în baza de date LMI
> Codul NT-I-m-B-10528.01 nu a fost găsit în baza de date LMI
> Codul NT-I-m-B-10528.02 nu a fost găsit în baza de date LMI
> Codul CV-I-m-B-13079.01 nu a fost găsit în baza de date LMI
> Codul CV-I-m-B-13079.02 nu a fost găsit în baza de date LMI
> Codul SB-I-s-B-11958 nu a fost găsit în baza de date LMI
> Codul MM-I-m-B-04378.02 nu a fost găsit în baza de date LMI
> Codul TL-I-m-B-05780.02 nu a fost găsit în baza de date LMI
> Codul TL-I-m-B-05764.02 nu a fost găsit în baza de date LMI
> Codul TL-I-m-B-05764.01 nu a fost găsit în baza de date LMI
> Codul VS-I-s-B-20218 nu a fost găsit în baza de date LMI
> Codul HR-I-m-B-12689.03 nu a fost găsit în baza de date LMI
> Codul SB-I-s-A-11947 nu a fost găsit în baza de date LMI
> Codul IF-I-s-B-15168 nu a fost găsit în baza de date LMI
> Codul IF-I-s-B-15168 nu a fost găsit în baza de date LMI
> Codul IF-I-m-B-15168.01 nu a fost găsit în baza de date LMI
> Codul IF-I-s-B-15168 nu a fost găsit în baza de date LMI
> Codul IF-I-m-B-15168.02 nu a fost găsit în baza de date LMI
> Codul GJ-I-m-B-09135.01 nu a fost găsit în baza de date LMI
> Codul GJ-I-m-B-09135.02 nu a fost găsit în baza de date LMI
> Codul TL-I-m-A-05803.02 nu a fost găsit în baza de date LMI
> Codul PH-I-s-B-16163 nu a fost găsit în baza de date LMI (3 apariții)
> Codul HD-I-s-B-03203 nu a fost găsit în baza de date LMI
> Codul PH-I-m-B-16187.02 nu a fost găsit în baza de date LMI
> Codul PH-I-s-B-16187 nu a fost găsit în baza de date LMI
> Codul CV-I-m-B-13079.01 nu a fost găsit în baza de date LMI
> Codul CV-I-m-B-13079.02 nu a fost găsit în baza de date LMI
> Codul TL-I-m-A-05803.01 nu a fost găsit în baza de date LMI
> Codul HR-I-s-B-12653.03 nu a fost găsit în baza de date LMI
> Codul HR-I-s-B-12653.01 nu a fost găsit în baza de date LMI
> Codul HR-I-s-B-12653.02 nu a fost găsit în baza de date LMI
> Codul MS-II-m-A-15667 nu a fost găsit în baza de date LMI
> Codul BT-II-m-A-01855.01 nu a fost găsit în baza de date LMI (2 apariții)
> Codul "  NT-II-m-B-10694" conține erori de formatare (5 apariții)
> Codul CJ-I-s-A-07110.03 nu a fost găsit în baza de date LMI
> Codul CJ-I-s-A-0711.01 nu este valid
> Codul CJ-I-s-A-07110.02 nu a fost găsit în baza de date LMI
> Codul CJ-I-s-A-07110.04 nu a fost găsit în baza de date LMI
> _______________________________________________
> Date-deschise mailing list
> Date-deschise la liste.ceata.org
> https://liste.ceata.org/listinfo/date-deschise



Am încercat să punem, de probă, și aceste date pe CKAN-ul de la 
http://89.35.68.58/dataset/inpr .

Am biruit parțial, cu improvizații și limitări, după cum urmează:

1. Separatorul "|" nu este permis de CKAN, ci doar ";" . Dar, cum ";" 
era folosit în alte locuri, l-am înlocuit pe acesta cu "-" și apoi am 
pus ";" în loc de "|".

2. Cum fișierul rezultat tot nu vroia să se lase încărcat corect și 
vizualizat, am început să-l ciopârțim după metoda leului (tai pe la 
jumătate, jumătatea cu hibe iar pe la jumătate... așa învățam noi în 
facultate că se determină locul în care e întrerupt un cablu electric!). 
Concluzia: sunt o grămadă de coduri ran de forme ciudate, care nu sunt 
acceptate. De exemplu, la linia 17356, prima cu probleme:

> 512084;http://ran.cimec.ro/?descript=mediesu-aurit-mediesu-aurit-satu-mare-situl-arheologic-de-la-mediesu-aurit-conducta-de-gaz-cod-sit-ran-138093.048093.05;*138093.048093.05*;;Satu 
> Mare;MEDIESU AURIT;Medieșu Aurit;138093;;Conducta de Gaz;;;traseul 
> conductei de gaz Medieșu Aurit - Păulian c;Someș;;;;;;;;;;Situl 
> arheologic de la Medieșu Aurit - Conducta de 
> gaz;;;locuire;așezare;sec. I - III;Epoca bronzului, Neolitic, Epoca 
> romană;;;;;;;;8011286;138093.04.04;;;Așezare;;Neolitic;Neolitic;;;;;;;;;;;;;;;;;;;;;;;;;;;15.02.2012 
> 11:01:26

3. Am lăsat până la urmă încărcat primul calup de vreo 10000 de linii, 
care funcționează bine. Încercați la

http://89.35.68.58/dataset/inpr/resource/501e70c3-abdd-46cf-b526-07e8f70d364d

Puteți încărca și încerca și alte date.

Ioan
-------------- partea următoare --------------
Un atașament HTML a fost eliminat   
URL: <http://lists.okfn.org/pipermail/date-deschise/attachments/20140210/2ee96c48/attachment-0002.html>


Mai multe informații despre lista de discuții Date-deschise