<div dir="ltr">On 5 October 2013 21:43, Andrew Stott <span dir="ltr">&lt;<a href="mailto:andrew.stott@dirdigeng.com" target="_blank">andrew.stott@dirdigeng.com</a>&gt;</span> wrote:<br><div class="gmail_extra"><div class="gmail_quote">
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div lang="EN-GB" link="blue" vlink="purple"><p class=""><span style="font-size:12pt">Rufus<u></u><u></u></span></p>
<p class=""><span style="font-size:12pt"><u></u> <u></u></span></p><p class=""><span style="font-size:12pt">I’m rather more relaxed about properly structured HTML where the data could be programmatically extracted (although most examples would fail the bulk download case).</span></p>
</div></blockquote><div> </div><div>Hmmm, I&#39;m in 2 minds on this but incline to saying HTML is not machine readable as you almost always have to do siginificant work to re-extract info. More below ...</div><div> </div>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div lang="EN-GB" link="blue" vlink="purple"><p class=""></p>
<p class=""><span style="font-size:12pt">For instance if an agency want to make a data table available as HTML under an open licence and this is both viewable and programmatically, reliably, parsable in order to get the data then it is hard to see this is not open data.<u></u><u></u></span></p>
<p class=""><span style="font-size:12pt"><u></u> <u></u></span></p><p class=""><span style="font-size:12pt">However it would not be open data if:<u></u><u></u></span></p><p class=""><span style="font-size:12pt"><u></u> <u></u></span></p>
<p class=""><span style="font-size:12pt">(1) the data is shown as, for instance, images within the HMTL – not programmatically extractable.<u></u><u></u></span></p><p class=""><span style="font-size:12pt"><u></u> <u></u></span></p>
<p class=""><span style="font-size:12pt">(2) the data is shown as implications for formatting rather than as data itself (eg colouring – cf the OKFN Census league table (!))<u></u><u></u></span></p><p class=""><span style="font-size:12pt"><u></u> <u></u></span></p>
<p class=""><span style="font-size:12pt">(3) the data “appears” as the result of user interaction and/or the execution of scripts – that defeats automatic, programmable parsing.<u></u><u></u></span></p><p class=""><span style="font-size:12pt"><u></u> <u></u></span></p>
<p class=""><span style="font-size:12pt">Conversely at one time UK Civil Service vacancies (largely structured text) were shown on various UK Government websites with RDFa attributes in the HTML tags precisely in order to be scrapable.  This sort of technology could also be a solution to publication of contractual documents – frankly more useful than downloadable PDFs or Microsoft Word file. </span></p>
</div></blockquote><div><br></div><div>I think RDFa is one thing (and I&#39;d put RDFa as the format rather than HTML or perhaps HTML/RDFa) but I&#39;d say that, by default, HTML is not machine-readable because it always needs parsing (and most HTML is quite bad HTML).</div>
<div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div lang="EN-GB" link="blue" vlink="purple"><p class="">
<span style="font-size:12pt"> <u></u><u></u></span></p><p class=""><span style="font-size:12pt"><u></u> <u></u></span></p><p class=""><span style="font-size:12pt">As Ivan Begtin has pointed out, simply because a dataset is expressed in XML it does not mean that it is machine readable in any sort of practical way. </span></p>
</div></blockquote><div><br></div><div>I&#39;d say it is much more machine-readable ;-)</div><div><br></div><div>Machine-readability is definitely one of the more subtle items when you get to the edges - i actually have a series of &quot;bad-data&quot; examples in progress to illustrate some of the edge cases at </div>
<div><br></div><div><a href="http://okfnlabs.org/bad-data/">http://okfnlabs.org/bad-data/</a><br></div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div lang="EN-GB" link="blue" vlink="purple"><p class=""></p><p class=""><span style="font-size:12pt">And there are a number of mapping and postcode cases where the results are in open formats but are not machine-readable in the sense that you could extract the data and reuse it.</span><span style="font-size:12pt"> </span></p>
<p class=""><span style="font-size:12pt">In my view we should look at machine readable as a combination of fact and objective judgement, and not say that a particular format is automatically machine-readable or not machine-readable.</span></p>
</div></blockquote><div><br></div><div>That is definitely a good point but I would say that *usually* HTML would not be machine readable (perhaps we need a weak and strong form ;-) of it!)</div><div><br></div><div>Rufus</div>
</div><div dir="ltr"><b style="font-weight:normal"><b style="font-weight:normal"><p></p></b><p></p></b></div>
</div></div>