[Okfn-se] Skannad pdf till csv?
Rikard Fröberg
rikard at morus.se
Mon Apr 14 15:09:14 UTC 2014
Hej Erik!
Bifogar resultatet. Det är ganska nedslående. Det är tydligen inte så lätt
att OCR-läsa tabulär data från en bild (som man kan förstå iofs). Det
kanske finns programvara som är bättre på det än den jag använde.
Programvaran jag använde (som angavs i den tråd jag länkade till) var:
pdftoppm (skapa bilder av PDF-sidorna)
convert (skapa tiff av ppm-bilderna)
tesseract (tolka bilderna som text via OCR)
Det som gick mindre bra var alltså sista steget med tesseract. Dels hade
jag inga svenska regler installerade så jag körde på engelska vilket så
klart blev kasst med åäö. Dels så fixade den inte tabellerna.
Så, för att gå vidare:
1. Undersök om det finns bättre programvara än tesseract
2. Överväg att manuellt skapa CSV av data från textfilen jag bifogar
3. Överväg att klaga/begära samma data i bättre format
Några reflektioner.
Det är i vart fall smidigare att få inscannade bilder per e-post än att få
en bunt papper som man får scanna in själv. Man kan alltid fråga dem om de
har samma dokument i annat format. Om de har intresse av eller möjlighet
att tillgodose en sådan förfrågan vet man ju inte. Jag lämnar åt andra i
att spekulera i vilka skäl man eventuellt skulle ha att lämna ut "data" i
ett format som försvårar databehandling ;-) men jag tror inte det är onda
avsikter.
Oftast beror nog valet av format av detta slag på okunskap eller annat -
såsom att man inte hade krav eller tankar på att det ska gå att
databehandla när man valde dokumentformat. De kanske skapades i en tid där
man inte hade några planer på öppna data t ex. Eller att man inte hade
något annat alternativ av tekniska skäl.
Bättre med data i kassa format än inga data alls, förvisso. Men det här
visar ju på att diskussionen om vilka format som är bra och vilka som inte
är bra är en diskussion som är värd att föra ;-) Det gäller att vara
konstruktiv här tror jag. Så att man inte upplevs som "jaha, nu när vi
erbjöd data så var inte det bra heller". Kanske behövs här mer hjälp och
information? Man bör nog uppmuntra dem som lämnar ut handlingar/data i
digitalt format. Kanske behöver man erbjuda lite hjälp på traven för att få
det paketerat i ett mer lämpligt format sedan.
Rikard
2014-04-10 18:48 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
> Den här filen, och fler i samma stil, vill jag konvertera till csv.
> Åtminstone den rent ekonomiska informationen:
>
>
> http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>
> Erik Hjärtberg
>
>
> 2014-04-10 16:05, Rikard Fröberg skrev:
>
> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>
> Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat själv men
> om du skickar PDF:en kan jag testa om du vill).
>
> [1] http://ubuntuforums.org/showthread.php?t=880471
>
> English version: Hi, found [1] at ubuntuforums but have not tried it
> myself. If you send the PDF I'd be happy to give it a try.
>
> Cheers/Vänligen
>
> Rikard
>
>
> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>
>> Hej!
>>
>> Jag behöver tips på något program som kan konvertera skannade pdf-filer
>> till csv-format. Det handlar alltså om skannade filer som tekniskt sett är
>> bilder.
>>
>> Hälsningar,
>>
>> Erik Hjärtberg
>>
>> --
>> Erik Hjärtberg
>> text at erikhjartberg.se
>> 070-273 67 36
>>
>>
>> _______________________________________________
>> okfn-se mailing list
>> okfn-se at lists.okfn.org
>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>
>
>
>
> --
> Rikard Fröberg, Rådgivare offentlig sektor
> Morus konsult AB | http://morus.se | rikard at morus.se
> 0700 - 90 69 64 | 031 385 88 93
>
>
> --
> Erik Hjärtbergtext at erikhjartberg.se
> 070-273 67 36
>
>
--
Rikard Fröberg, Rådgivare offentlig sektor
Morus konsult AB | http://morus.se | rikard at morus.se
0700 - 90 69 64 | 031 385 88 93
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140414/1a101d9e/attachment-0004.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: pdf-ocr-output.txt.gz
Type: application/x-gzip
Size: 6469 bytes
Desc: not available
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140414/1a101d9e/attachment-0004.bin>
More information about the okfn-se
mailing list