Traducere "Making things! Hackdays, prizes and prototypes"
Sorin-Mihai Vârgolici
smv la ceata.org
Lun Mai 14 09:42:48 UTC 2012
Am anexat fișierul complet. Îmi cer scuze pentru întârziere.
--
Sorin-Mihai Vârgolici
-------------- partea următoare --------------
=================
Formate de fișier
=================
O privire de ansamblu asupra formatelor fișierelor
==================================================
JSON
----
JSON este un format de fișier simplu care este foarte ușor de interpretat prin
orice limbaj de programare. Simplitatea sa constă în ușurința cu care
computerele procesează acest format spre deosebire de altele, cum ar fi XML.
XML
---
XML este un format pentru schimbul de date folosit pe scară largă, deoarece
oferă oportunități de a păstra structura în date și în modul în care fișierele
sunt construite. De asemenea îngăduie dezvoltatorilor să scrie părți din
documentație fără a interveni asupra modului de citire.
RDF
---
Un format recomandat de W3C ce face posibilă reprezentarea datelor
într-o formă ce face ușoară combinarea din mai multe surse. Datele RDF pot fi stocate în XML și JSON, printre altele. RDF încurajează folosirea URL ca identificatori, care
oferă un mod convenabil de a interconecta inițiativele de :term:`open data` de pe web. RDF nu este încă foarte răspândit, dar a devenit o tendință printre inițiativele de
guvernare deschisă, inclusiv proiectele de date deschise conectate ale guvernelor Marii Britanii și Spaniei (British and Spanish Government Linked Open Data). Inventatorul
Web, Tim Berners-Lee, a propus o schemă cinci-stele_ care include date RDF conectate ca scop al căutării de inițiative pentru date deschise.
.. _cinci-stele: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/
Foi de Calcul
-------------
Multe autorități au informații rămase în foi de calcul, spre exemplu Microsoft Excel. Aceste date pot fi adeseori utilizate imediat cu descrierea corectă a ceea ce
înseamnă fiecare coloană.
Cu toate acestea, în unele cazuri pot exista formule în foile de calcul, care pot fi mai dificile în manevrare. Este recomandată documentarea acestor formule alături
de foile de calcul, pentru a fi în general mai accesibile utilizatorilor.
Fișiere separate prin virgulă
-----------------------------
CSV poate fi un format foarte folositor pentru că este compact și deci potrivit pentru transferul de seturi mari de date cu aceeași structură. Totuși, formatul este așa de
spartan încât datele sunt deseori nefolosibile fără documentație pentur că este aproape imposibil de ghicit semnificația diferitelor coloane. Este deci important pentru
fișierele separate prin virgulă ca documentația pentru câmpurile individuale să fie precise.
Mai mult este esențial ca structura fișierului să fie respectată, pentru că o singură omisiune a unui câmp poate îngreuna citirea datelor rămase în fișier fără vreo
posibilitate de a rectifica eroarea, pentru că nu se paote determina cum trebuies interpretate datele rămase.
Documente text
--------------
Documentele în formate clasice precum Word, ODF, OOXML sau PDF pot fi suficiente pentru a expune anumite tipuri de date - spre exemplu, în liste de mesaje sau altele. Ar
putea fi mai ușor să fie prezentate în aceste formate, pentru că sunt formatele în care datele au fost introduse ințial. Formatele nu oferă niciun suport pentru a păstra o
structură consistentă, ceea ce de multe ori înseamnă că este dificilă introducerea de date în mod automat. Folosirea șabloanelor ca bază pentru documentele care vor expune
date pentru refolosire, face posibilă cel puțin extragerea informației din documente.
De asemenea poate sprijini folosirea ulterioară a formatelor tipografice pe cât posibil pentru ca astfel să fie mai ușor distingerea antetelor (de orice tip) de către o
mașină din orice conținut. În general este nu recomandată folosirea formatulelor Word, dacă datele există și în alte formate.
Text simplu
-----------
Documentele în format text simplu (.txt) sunt foarte ușor de citit de către calculatoarele. În general acestea exclud metadatele din interiorul documentuli, ceea ce
înseamnă că dezvoltatorii vor fi nevoiți să creeze un program pentru analiză sintactică care poate interpreta fiecare document așa cum apare.
Unele probleme pot fi cauzate de schimbul de fișiere text între sistemele de operare. MS Windows, Mac OS X și alte variante Unix au fiecare propriul mod de a spune
calculatoarelor că au ajuns la sfârșit de linie.
Imagini scanate
---------------
Probabil cel mai puțin potrivit format pentru cele mai multe date, dar ambele formate TIFF și JPEG-2000 pot cel puțin marca cu documentație ce anume este în imagine - până
acolo încât să marcheze imaginea unui document cu tot textul acelui document. Poate fi relevantă expunerea datelor ca imagini pentru acele date care nu au fost create în
format electronic, cum ar fi materialele din arhive, iar o imagine este mai bună decât nimic.
Formatele proprietărești
------------------------
Unele sisteme dedicate au propriile formate de date în care pot salva sau exporta date. Uneori poate fi suficientă expunerea datelor în astfel de formate - în special dacă se
așteaptă ca utilizările ulterioare să aibă loc în sisteme similare celor din care provin. Ar trebui întotdeauna indicat unde anume se pot găsi informații ulterioare despre
aceste formate, spre exemplu o legătură către situl web al distribuitorului. In general se recomandă expunerea datelor în formate neproprietărești acolo unde este posibil.
HTML
----
În zile noastre majoritatea datelor sunt disponibile în HTML pe diverse situri. Aceasta poate fi suficient dacă datele sunt stabile și limitate în scop. În unele cazuri, este
de preferat obținerea într-o formă simplă de descărcat și manevrat, dar este simplu să se ofere o legătură către o pagină web, ar putea fi un bun punct de plecare în
expunerea datelor.
În mod normal, ar fi mai potrivită folosirea tabelelor în documente HTML pentru a păstra datele, și apoi este important ca diversele câmpuri de date să fie afișate și să li
se dea identificatori care fac ușoară manevrarea datelor. Yahoo a dezvoltat o unealtă (http://developer.yahoo.com/yql/) care poate extrage informații structurate dintr-un sit
web și astfel de unelte pot face mai multe cu datele care sunt etichetate cu atenție.
Formate de fișier deshise
===========================
Chiar dacă informația este oferită în format electronic, în formate ce pot fi citite automat și în detaliu, pot exista probleme legate de formatul fișierului.
Formatele în care informația este publicată - cu alte cuvinte formatul digital în care informația este stocată - pot fi „deschise” sau „închise”. Un format deschis este unul
în care specificațiile pentru programe sunt standardizate, disponibile oricui, astfel încât oricine poate folosi aceste specificații în propriile programe fără alte limitări
in refolosire impuse de drepturile de proprietate intelectuală.
Dacă un format de fișier este „închis”, aceasta poate fi pentru că formatul este proprietăresc și specificațiile nu sunt public accesibile sau pentru că formatul este
proprietăresc și deși specificațiile au fost făcute publice, reutilizarea este limitată. Dacă informația este eliberată într-un fișier în format închis, aceasta poate produce
obstacole semnificative în reutilizarea informației codificată în fișier, forțându-i pe cei care doresc să folosească informația să cumpere programele necesare.
Beneficiul formatelor de fișiere deschise este că ele permit dezvoltatorilor să producă pachete de programe și servicii folosind aceste formate. Aceasta minimizează
obstacolele refolosirii informației pe care o conțin.
Folosirea formatelor de fișier proprietăresc pentru care specificațiile nu sunt accesibile pot crea dependențe de terțe programe sau terți deținători de drepturi asupra
formatelor de fișiere. În cel mai rau caz, aceasta înseamnă că informația poate fi citită doar folosind anumite pachete de programe, la prețuri neaccesibile, sau care pot
deveni depășite.
Din perspectiva :term:`open government data` este preferată publicarea informației în **formate de fișier deschise care pot fi citite automat.**
Exemplu: date despre trafic în Regatul Unit
------------------------
Andrew Nicolson este un dezvoltator de programe care a fost implicat într-o campanie (în cele din urmă de succes) împotriva construirii unei noi străzi, Westbury Eastern, în
Regatul unit. Andrew a fost interesat de accesarea și folosirea datelor despre trafic ce erau folosite pentru a justifica propunerile. A reușit să obțină câteva dintre cele
mai relevante date prin cereri bazate pe legislația privind liberul acces la informație, dar autoritățile locale au oferit datele într-un format proprietăresc ce poate fi
citit doar folosind programe produse de o companie numită Saturn, specializată în modelarea și anticiparea traficului. Nu era oferită o versiune „” a programului, așa că
grupul lui Andrew nu avut nicio alternativă, decât să cumpere o licență pentru programe, plătind în final £500 (€600) utilizând o reducere educatională. Pachete principale de
programe de pe lista de prețuri ale comaniei Saturn, din aprilie 2010, pornesc de la £13,000 (peste €15,000), un preț care nu este accesibil cetățenilor obișnuiți.
Deși nicio lege pentru accesul la informație nu dă dreptul la accesul în formate deschise, inițiativele guvernamentale de deschidere a datelor încep să fie însoțite de
documente de politici care stipulează că informațiile oficiale trebuie să fie disponibile în formate deschise. Standardul înalt a fost stabilit de administrația Obama, prin
Directiva pentru o duvernare deschisă, din decembrie 2009, care spune:
*Pe cât posibil și în concordanță cu restricțiile valabile,
agențiile ar trebui să publice informația pe internet într-un
format deschis care poate fi găsit, descărcat, indexat și în
care se poate căuta folosind aplicații de căutare web. Un format
deschis este unul care este independent de platformă, se poate
citi automat și poate fi disponibil publicului fără restricții
care ar împiedica refolosirea acelei informații.*
Cum folosesc un anumit format?
==============================
Când o autoritate trebuie să expună noi date - date care nu au fost expuse înainte - ar trebui să alegi formatul care oferă cel mai bun balans între cost și potrivirea cu
scopul. Pentru fiecare format există anumite lucruri de care trebuie să fii conștient și această secțiune încearcă să le explice.
Această secțiune se focalizează doar pe modul în care elementele sunt îmbinate astfel încât să poată fi accesate automat. Sfaturi și ghiduri despre cum ar trebui proiectate
siturile și serviciile web pot fi găsite în altă parte.
Servicii Web
------------
Pentru date care se schimbă frecvent și acolo unde fiecare cerere este limitată în dimensiune, este relevantă expunerea datelor prin servicii web. Există mai multe moduri de
a crea servicii web, dar unele dintre cele mai folosite sunt SOAP și REST. În general, SOAP mai mult decât REST sau servicii REST, dar sunt foarte ușor de dezvoltat și
folosit, așa că sunt standarde folosite pe scară largă.
Baze de date
------------
La fel ca serviciile web, bazele de date oferă acces direct la date în mod dinamic. Bazele de date au avantajul ca pot îngădui utilizatorilor sa pună la un loc doar
extragerile care îi interesează.
Există unele îngrijorări cu privire la securitate atunci când se îngăduie acces de la distanță pentru extragerea din bazele de date și accesul la bazele de date este
folositor doar dacă structura bazei de date și importanța tabelelor individuale și a câmpurilor sunt bine documentate. Adesea, este relativ simplu și ieftin să se creeze
servicii web care expun date dintr-o bază de date, care poate fi o metodă ușoară de a aborda îngrijorările cu privire la securitate.
Mai multe informații despre lista de discuții Date-deschise