Traducere "Making things! Hackdays, prizes and prototypes"

Sorin-Mihai Vârgolici smv la ceata.org
Dum Mai 13 16:56:17 UTC 2012


On 13.05.2012 19:47, Alex Morega wrote:

> appendices/file-formats.rst (46)

Am anexat o parte din acest document, încerc să revin cu restul în seara 
asta.
-------------- partea următoare --------------
=================
Formate de fi?ier
=================

O privire de ansamblu asupra formatelor fi?ierelor
==================================================

JSON
----

JSON este un format de fi?ier simplu care este foarte u?or de interpretat prin
orice limbaj de programare. Simplitatea sa constă în u?urin?a cu care
computerele procesează acest format spre deosebire de altele, cum ar fi XML.

XML
---

XML este un format pentru schimbul de date folosit pe scară largă, deoarece
oferă oportunită?i de a păstra structura în date ?i în modul în care fi?ierele
sunt construite. De asemenea îngăduie dezvoltatorilor să scrie păr?i din
documenta?ie fără a interveni asupra modului de citire.

RDF
---

Un format recomandat de W3C ce face posibilă reprezentarea datelor
într-o formă ce face u?oară combinarea din mai multe surse. Datele RDF pot fi stocate în XML ?i JSON, printre altele. RDF încurajează folosirea URL ca identificatori, care 
oferă un mod convenabil de a interconecta ini?iativele de :term:`open data` de pe web. RDF nu este încă foarte răspândit, dar a devenit o tendin?ă printre ini?iativele de 
guvernare deschisă, inclusiv proiectele de date deschise conectate ale guvernelor Marii Britanii ?i Spaniei (British and Spanish Government Linked Open Data). Inventatorul 
Web, Tim Berners-Lee, a propus o schemă cinci-stele_ care include date RDF conectate ca scop al căutării de ini?iative pentru date deschise.

.. _cinci-stele: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/

Foi de Calcul
-------------

Multe autorită?i au informa?ii rămase în foi de calcul, spre exemplu Microsoft Excel. Aceste date pot fi adeseori utilizate imediat cu descrierea corectă a ceea ce 
înseamnă fiecare coloană.

Cu toate acestea, în unele cazuri pot exista formule în foile de calcul, care pot fi mai dificile în manevrare. Este recomandată documentarea acestor formule alături 
de foile de calcul, pentru a fi în general mai accesibile utilizatorilor.

Fi?iere separate prin virgulă
-----------------------------

CSV poate fi un format foarte folositor pentru că este compact ?i deci potrivit pentru transferul de seturi mari de date cu aceea?i structură. Totu?i, formatul este a?a de 
spartan încât datele sunt deseori nefolosibile fără documenta?ie pentur că este aproape imposibil de ghicit semnifica?ia diferitelor coloane. Este deci important pentru 
fi?ierele separate prin virgulă ca documenta?ia pentru câmpurile individuale să fie precise.

Mai mult este esen?ial ca structura fi?ierului să fie respectată, pentru că o singură omisiune a unui câmp poate îngreuna citirea datelor rămase în fi?ier fără vreo 
posibilitate de a rectifica eroarea, pentru că nu se paote determina cum trebuies interpretate datele rămase.

Documente text
--------------

Documentele în formate clasice precum Word, ODF, OOXML sau PDF pot fi suficiente pentru a expune anumite tipuri de date - spre exemplu, în liste de mesaje sau altele. Ar 
putea fi mai u?or să fie prezentate în aceste formate, pentru că sunt formatele în care datele au fost introduse in?ial. Formatele nu oferă niciun suport pentru a păstra o 
structură consistentă, ceea ce de multe ori înseamnă că este dificilă introducerea de date în mod automat. Folosirea ?abloanelor ca bază pentru documentele care vor expune 
date pentru refolosire, face posibilă cel pu?in extragerea informa?iei din documente.

De asemenea poate sprijini folosirea ulterioară a formatelor tipografice pe cât posibil pentru ca astfel să fie mai u?or distingerea antetelor (de orice tip) de către o 
ma?ină din orice con?inut. În general este nu recomandată folosirea formatulelor Word, dacă datele există ?i în alte formate.

Text simplu
-----------

Documentele în format text simplu (.txt) sunt foarte u?or de citit de către calculatoarele. În general acestea exclud metadatele din interiorul documentuli, ceea ce 
înseamnă că dezvoltatorii vor fi nevoi?i să creeze un program pentru analiză sintactică care poate interpreta fiecare document a?a cum apare.

Unele probleme pot fi cauzate de schimbul de fi?iere text între sistemele de operare. MS Windows, Mac OS X ?i alte variante Unix au fiecare propriul mod de a spune 
calculatoarelor că au ajuns la sfâr?it de linie.

Imagini scanate
---------------

Probabil cel mai pu?in potrivit format pentru cele mai multe date, dar ambele formate TIFF ?i JPEG-2000 pot cel pu?in marca cu documenta?ie ce anume este în imagine - până 
acolo încât să marcheze imaginea unui document cu tot textul acelui document. Poate fi relevantă expunerea datelor ca imagini pentru acele date care nu au fost create în 
format electronic, cum ar fi materialele din arhive, iar o imagine este mai bună decât nimic.

Formatele proprietăre?ti
------------------------

Unele sisteme dedicate au propriile formate de date în care pot salva sau exporta date. Uneori poate fi suficientă expunerea datelor în astfel de formate - în special dacă se 
a?teaptă ca utilizările ulterioare să aibă loc în sisteme similare celor din care provin. Ar trebui întotdeauna indicat unde anume se pot găsi informa?ii ulterioare despre 
aceste formate, spre exemplu o legătură către situl web al distribuitorului. In general se recomandă expunerea datelor în formate neproprietăre?ti acolo unde este posibil.

HTML
----

În zile noastre majoritatea datelor sunt disponibile în HTML pe diverse situri. Aceasta poate fi suficient dacă datele sunt stabile ?i limitate în scop. În unele cazuri, este 
de preferat ob?inerea într-o formă simplă de descărcat ?i manevrat, dar este simplu să se ofere o legătură către o pagină web, ar putea fi un bun punct de plecare în 
expunerea datelor.

În mod normal, ar fi mai potrivită folosirea tabelelor în documente HTML pentru a păstra datele, ?i apoi este important ca diversele câmpuri de date să fie afi?ate ?i să li 
se dea identificatori care fac u?oară manevrarea datelor. Yahoo a dezvoltat o unealtă (http://developer.yahoo.com/yql/) care poate extrage informa?ii structurate dintr-un sit 
web ?i astfel de unelte pot face mai multe cu datele care sunt etichetate cu aten?ie.

Formate de fi?ier deshise
===========================

Chiar dacă informa?ia este oferită în format electronic, în formate ce pot fi citite automat ?i în detaliu, pot exista probleme legate de formatul fi?ierului. 

Formatele în care informa?ia este publicată - cu alte cuvinte formatul digital în care informa?ia este stocată - pot fi ?deschise? sau ?închise?. Un format deschis este unul 
în care specifica?iile pentru programe sunt standardizate, disponibile oricui, astfel încât oricine poate folosi aceste specifica?ii în propriile programe fără alte limitări 
in refolosire impuse de drepturile de proprietate intelectuală.

Dacă un format de fi?ier este ?închis?, aceasta poate fi pentru că formatul este proprietăresc ?i specifica?iile nu sunt public accesibile sau pentru că formatul este 
proprietăresc ?i de?i specifica?iile au fost făcute publice, reutilizarea este limitată. Dacă informa?ia este eliberată într-un fi?ier în format închis, aceasta poate produce 
obstacole semnificative în reutilizarea informa?iei codificată în fi?ier, for?ându-i pe cei care doresc să folosească informa?ia să cumpere programele necesare.

Beneficiul formatelor de fi?iere deschise este că ele permit dezvoltatorilor să producă pachete de programe ?i servicii folosind aceste formate. Aceasta minimizează 
obstacolele refolosirii informa?iei pe care o con?in.

Folosirea formatelor de fi?ier proprietăresc pentru care specifica?iile nu sunt accesibile pot crea dependen?e de ter?e programe sau ter?i de?inători de drepturi asupra 
formatelor de fi?iere. În cel mai rau caz, aceasta înseamnă că informa?ia poate fi citită doar folosind anumite pachete de programe, la pre?uri neaccesibile, sau care pot 
deveni depă?ite.

Din perspectiva :term:`open government data` este preferată publicarea informa?iei în **formate de fi?ier deschise care pot fi citite automat.** 


Exemplu: date despre trafic în Regatul Unit
------------------------

Andrew Nicolson este un dezvoltator de programe care a fost implicat într-o campanie (în cele din urmă de succes) împotriva construirii unei noi străzi, Westbury Eastern, în 
Regatul unit. Andrew a fost interesat de accesarea ?i folosirea datelor despre trafic ce erau folosite pentru a justifica propunerile. A reu?it să ob?ină câteva dintre cele 
mai relevante date prin cereri bazate pe legisla?ia privind liberul acces la informa?ie, dar autorită?ile locale au oferit datele într-un format proprietăresc ce poate fi 
citit doar folosind programe produse de o companie numită Saturn, specializată în modelarea ?i anticiparea traficului. Nu era oferită o versiune ?? a programului, a?a că 
grupul lui Andrew nu avut nicio alternativă, decât să cumpere o licen?ă pentru programe, plătind în final ?500 (?600) utilizând o reducere educatională. Pachete principale de 
programe de pe lista de pre?uri ale comaniei Saturn, din aprilie 2010, pornesc de la ?13,000 (peste ?15,000), un pre? care nu este accesibil cetă?enilor obi?nui?i.


Mai multe informații despre lista de discuții Date-deschise