[Okfn-se] Skannad pdf till csv?
Rikard Fröberg
rikard at morus.se
Tue Apr 29 13:46:33 UTC 2014
Hej igen. Nu hade jag lite mer tid och gav det ett försök till. Tänkte att
det kunde vara intressant för fler här att ta del av erfarenheterna.
Jag installerade följande:
* gscan2pdf
* cuniform (ocr med språkstöd)
* popper-utils (inkluderar pdftotext)
Jag öppnade din PDF från gscan2pdf och valde OCR med cuniform (om man
installerat cuniform så kan man välja det som motor i gscan2pdf).
Sedan sparade jag som PDF. Resultatet körde jag sedan pdftotext på:
$ pdftotext -layout Result_pdf_gscan2pdf_cuniform.pdf Result_pdftotext.txt
Bifogar filen men nedan finns ett exempel på resultat i textform:
Flygplatsdri& är ett långsiktigt åtagande och lcan sammanfattas med
följande mått under den senaste
femårsperioden.
2011 2010
2009 2008 2007
Resultat efter finansiella poster (tkr) -8 082 -22 973
-24 217 -22 547 -22 939
Balansoiuslutning (tkr) 39 791 42 362
31 603 59 948 32 274
Soliditet (not I) 76% 91%
84% 85s/c 82%
Antal årspassagerare 149 009 149 618
173 187 185 302 184 513
Antal tlygrörelser 15 065 14 950
15 626 13 492 13 168
Antal &aktton 5 699 5 659
4 443 2 082 25
Inte 100% men antagligen spar det en hel del tid att kunna kopiera text
från filen. Som alltid måste man dubbelkolla mot originalet (åtminstone
stickprover) men man spar tid genom att få åtminstone en textfil att arbeta
med. Det borde gå ganska lätt att skripta ut data från detta, eftersom det
åtminstone blir tabellformat i textfilen.
Hoppas detta hjälper
Mvh
Rikard
2014-04-14 17:09 GMT+02:00 Rikard Fröberg <rikard at morus.se>:
> Hej Erik!
>
> Bifogar resultatet. Det är ganska nedslående. Det är tydligen inte så lätt
> att OCR-läsa tabulär data från en bild (som man kan förstå iofs). Det
> kanske finns programvara som är bättre på det än den jag använde.
>
> Programvaran jag använde (som angavs i den tråd jag länkade till) var:
> pdftoppm (skapa bilder av PDF-sidorna)
> convert (skapa tiff av ppm-bilderna)
> tesseract (tolka bilderna som text via OCR)
>
> Det som gick mindre bra var alltså sista steget med tesseract. Dels hade
> jag inga svenska regler installerade så jag körde på engelska vilket så
> klart blev kasst med åäö. Dels så fixade den inte tabellerna.
>
>
> Så, för att gå vidare:
> 1. Undersök om det finns bättre programvara än tesseract
> 2. Överväg att manuellt skapa CSV av data från textfilen jag bifogar
> 3. Överväg att klaga/begära samma data i bättre format
>
> Några reflektioner.
>
> Det är i vart fall smidigare att få inscannade bilder per e-post än att få
> en bunt papper som man får scanna in själv. Man kan alltid fråga dem om de
> har samma dokument i annat format. Om de har intresse av eller möjlighet
> att tillgodose en sådan förfrågan vet man ju inte. Jag lämnar åt andra i
> att spekulera i vilka skäl man eventuellt skulle ha att lämna ut "data" i
> ett format som försvårar databehandling ;-) men jag tror inte det är onda
> avsikter.
>
> Oftast beror nog valet av format av detta slag på okunskap eller annat -
> såsom att man inte hade krav eller tankar på att det ska gå att
> databehandla när man valde dokumentformat. De kanske skapades i en tid där
> man inte hade några planer på öppna data t ex. Eller att man inte hade
> något annat alternativ av tekniska skäl.
>
> Bättre med data i kassa format än inga data alls, förvisso. Men det här
> visar ju på att diskussionen om vilka format som är bra och vilka som inte
> är bra är en diskussion som är värd att föra ;-) Det gäller att vara
> konstruktiv här tror jag. Så att man inte upplevs som "jaha, nu när vi
> erbjöd data så var inte det bra heller". Kanske behövs här mer hjälp och
> information? Man bör nog uppmuntra dem som lämnar ut handlingar/data i
> digitalt format. Kanske behöver man erbjuda lite hjälp på traven för att få
> det paketerat i ett mer lämpligt format sedan.
>
> Rikard
>
>
>
> 2014-04-10 18:48 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>
> Den här filen, och fler i samma stil, vill jag konvertera till csv.
>> Åtminstone den rent ekonomiska informationen:
>>
>>
>> http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>>
>> Erik Hjärtberg
>>
>>
>> 2014-04-10 16:05, Rikard Fröberg skrev:
>>
>> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>>
>> Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat själv
>> men om du skickar PDF:en kan jag testa om du vill).
>>
>> [1] http://ubuntuforums.org/showthread.php?t=880471
>>
>> English version: Hi, found [1] at ubuntuforums but have not tried it
>> myself. If you send the PDF I'd be happy to give it a try.
>>
>> Cheers/Vänligen
>>
>> Rikard
>>
>>
>> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>
>>> Hej!
>>>
>>> Jag behöver tips på något program som kan konvertera skannade pdf-filer
>>> till csv-format. Det handlar alltså om skannade filer som tekniskt sett är
>>> bilder.
>>>
>>> Hälsningar,
>>>
>>> Erik Hjärtberg
>>>
>>> --
>>> Erik Hjärtberg
>>> text at erikhjartberg.se
>>> 070-273 67 36
>>>
>>>
>>> _______________________________________________
>>> okfn-se mailing list
>>> okfn-se at lists.okfn.org
>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>
>>
>>
>>
>> --
>> Rikard Fröberg, Rådgivare offentlig sektor
>> Morus konsult AB | http://morus.se | rikard at morus.se
>> 0700 - 90 69 64 | 031 385 88 93
>>
>>
>> --
>> Erik Hjärtbergtext at erikhjartberg.se
>> 070-273 67 36
>>
>>
>
>
> --
> Rikard Fröberg, Rådgivare offentlig sektor
> Morus konsult AB | http://morus.se | rikard at morus.se
> 0700 - 90 69 64 | 031 385 88 93
>
--
Rikard Fröberg, Rådgivare offentlig sektor
Morus konsult AB | http://morus.se | rikard at morus.se
0700 - 90 69 64 | 031 385 88 93
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140429/d4f1dd78/attachment-0004.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: result.tar.gz
Type: application/x-gzip
Size: 4677271 bytes
Desc: not available
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140429/d4f1dd78/attachment-0004.bin>
More information about the okfn-se
mailing list