[Okfn-se] Skannad pdf till csv?

Tue Apr 29 13:48:37 UTC 2014

Err... cuneiform heter programvaran och inget annat.

Package: cuneiform
State: installed
Automatically installed: no
Multi-Arch: foreign
Version: 1.1.0+dfsg-4
Priority: optional
Section: multiverse/graphics
Maintainer: Ubuntu Developers <ubuntu-devel-discuss at lists.ubuntu.com>
Architecture: amd64
Uncompressed Size: 68,6 k
Depends: libc6 (>= 2.14), libcuneiform0 (>= 1.0), libgcc1 (>= 1:4.1.1),
libgraphicsmagick++3, libstdc++6 (>= 4.2.1)
PreDepends: dpkg (>= 1.15.6)
Conflicts: cuneiform
Breaks: ocrodjvu (< 0.4.2), ocrodjvu (< 0.4.2)
Provides: cuneiform
Provided by: cuneiform
Description: multi-language OCR system
 Cuneiform is an OCR system. In addition to text recognition it also does
layout analysis and text format recognition.

 The following languages are supported: Bulgarian, Croatian, Czech, Danish,
Dutch, English, Estonian, French, German, Hungarian, Italian, Latvian,
Lithuanian, Polish,
 Portuguese, Romanian, Russian, Serbian, Slovenian, Spanish, Swedish,
Turkish and Ukrainian.
Homepage: http://launchpad.net/cuneiform-linux/

Package: gscan2pdf
New: yes
State: installed
Automatically installed: no
Version: 1.0.4-5
Priority: optional
Section: universe/utils
Maintainer: Ubuntu Developers <ubuntu-devel-discuss at lists.ubuntu.com>
Architecture: all
Uncompressed Size: 1 677 k
Depends: libgtk2-imageview-perl, libgtk2-ex-simple-list-perl, libsane-perl
(>= 0.05), liblocale-gettext-perl (>= 1.05), sane-utils (>= 1.0.17),
libtiff-tools, libpdf-api2-perl,
         libconfig-general-perl (>= 2.40), perlmagick, imagemagick,
librsvg2-common, libset-intspan-perl (>= 1.10), libhtml-parser-perl,
libgoo-canvas-perl,
         libproc-processtable-perl, libreadonly-perl, liblog-log4perl-perl
Recommends: libgtk2-ex-podviewer-perl, sane, xdg-utils, djvulibre-bin,
unpaper, tesseract-ocr | gocr | cuneiform
Description: GUI to produce PDFs or DjVus from scanned documents
 Only two clicks are required to scan several pages and then save all or a
selection as a PDF or DjVu file, including metadata if required.

 gscan2pdf can control regular or sheet-fed (ADF) scanners with SANE via
libsane-perl, scanimage or scanadf, and can scan multiple pages at once. It
presents a thumbnail view of
 scanned pages, and permits simple operations such as cropping, rotating
and deleting pages.

 OCR can be used to recognise text in the scans, and the output embedded in
the PDF or DjVu.

 PDF conversion is done by PDF::API2.

 The resulting document may be saved as a PDF, DjVu, multipage TIFF file,
or single page image file.
Homepage: http://gscan2pdf.sourceforge.net/

//Rikard

2014-04-29 15:46 GMT+02:00 Rikard Fröberg <rikard at morus.se>:

> Hej igen. Nu hade jag lite mer tid och gav det ett försök till. Tänkte att
> det kunde vara intressant för fler här att ta del av erfarenheterna.
>
> Jag installerade följande:
> * gscan2pdf
> * cuniform (ocr med språkstöd)
> * popper-utils (inkluderar pdftotext)
>
> Jag öppnade din PDF från gscan2pdf och valde OCR med cuniform (om man
> installerat cuniform så kan man välja det som motor i gscan2pdf).
> Sedan sparade jag som PDF. Resultatet körde jag sedan pdftotext på:
>
> $ pdftotext -layout Result_pdf_gscan2pdf_cuniform.pdf Result_pdftotext.txt
>
> Bifogar filen men nedan finns ett exempel på resultat i textform:
>
> Flygplatsdri& är ett långsiktigt åtagande och lcan sammanfattas med
> följande mått under den senaste
> femårsperioden.
>
>                                                      2011            2010
>      2009      2008       2007
> Resultat efter finansiella poster (tkr)            -8 082         -22 973
>   -24 217   -22 547    -22 939
> Balansoiuslutning (tkr)                            39 791          42 362
>    31 603    59 948     32 274
> Soliditet (not I)                                    76%             91%
>     84%       85s/c       82%
> Antal årspassagerare                              149 009         149 618
>   173 187   185 302    184 513
> Antal tlygrörelser                                 15 065          14 950
>    15 626    13 492     13 168
> Antal &aktton                                       5 699           5 659
>     4 443     2 082          25
>
> Inte 100% men antagligen spar det en hel del tid att kunna kopiera text
> från filen. Som alltid måste man dubbelkolla mot originalet (åtminstone
> stickprover) men man spar tid genom att få åtminstone en textfil att arbeta
> med. Det borde gå ganska lätt att skripta ut data från detta, eftersom det
> åtminstone blir tabellformat i textfilen.
>
> Hoppas detta hjälper
>
> Mvh
>
> Rikard
>
>
> 2014-04-14 17:09 GMT+02:00 Rikard Fröberg <rikard at morus.se>:
>
> Hej Erik!
>>
>> Bifogar resultatet. Det är ganska nedslående. Det är tydligen inte så
>> lätt att OCR-läsa tabulär data från en bild (som man kan förstå iofs). Det
>> kanske finns programvara som är bättre på det än den jag använde.
>>
>> Programvaran jag använde (som angavs i den tråd jag länkade till) var:
>> pdftoppm (skapa bilder av PDF-sidorna)
>> convert (skapa tiff av ppm-bilderna)
>> tesseract (tolka bilderna som text via OCR)
>>
>> Det som gick mindre bra var alltså sista steget med tesseract. Dels hade
>> jag inga svenska regler installerade så jag körde på engelska vilket så
>> klart blev kasst med åäö. Dels så fixade den inte tabellerna.
>>
>>
>> Så, för att gå vidare:
>> 1. Undersök om det finns bättre programvara än tesseract
>> 2. Överväg att manuellt skapa CSV av data från textfilen jag bifogar
>> 3. Överväg att klaga/begära samma data i bättre format
>>
>> Några reflektioner.
>>
>> Det är i vart fall smidigare att få inscannade bilder per e-post än att
>> få en bunt papper som man får scanna in själv. Man kan alltid fråga dem om
>> de har samma dokument i annat format. Om de har intresse av eller möjlighet
>> att tillgodose en sådan förfrågan vet man ju inte. Jag lämnar åt andra i
>> att spekulera i vilka skäl man eventuellt skulle ha att lämna ut "data" i
>> ett format som försvårar databehandling ;-) men jag tror inte det är onda
>> avsikter.
>>
>> Oftast beror nog valet av format av detta slag på okunskap eller annat -
>> såsom att man inte hade krav eller tankar på att det ska gå att
>> databehandla när man valde dokumentformat. De kanske skapades i en tid där
>> man inte hade några planer på öppna data t ex. Eller att man inte hade
>> något annat alternativ av tekniska skäl.
>>
>> Bättre med data i kassa format än inga data alls, förvisso. Men det här
>> visar ju på att diskussionen om vilka format som är bra och vilka som inte
>> är bra är en diskussion som är värd att föra ;-) Det gäller att vara
>> konstruktiv här tror jag. Så att man inte upplevs som "jaha, nu när vi
>> erbjöd data så var inte det bra heller". Kanske behövs här mer hjälp och
>> information? Man bör nog uppmuntra dem som lämnar ut handlingar/data i
>> digitalt format. Kanske behöver man erbjuda lite hjälp på traven för att få
>> det paketerat i ett mer lämpligt format sedan.
>>
>> Rikard
>>
>>
>>
>> 2014-04-10 18:48 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>
>>  Den här filen, och fler i samma stil, vill jag konvertera till csv.
>>> Åtminstone den rent ekonomiska informationen:
>>>
>>>
>>> http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>>>
>>> Erik Hjärtberg
>>>
>>>
>>> 2014-04-10 16:05, Rikard Fröberg skrev:
>>>
>>> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>>>
>>>  Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat själv
>>> men om du skickar PDF:en kan jag testa om du vill).
>>>
>>>  [1] http://ubuntuforums.org/showthread.php?t=880471
>>>
>>>  English version: Hi, found [1] at ubuntuforums but have not tried it
>>> myself. If you send the PDF I'd be happy to give it a try.
>>>
>>>  Cheers/Vänligen
>>>
>>>  Rikard
>>>
>>>
>>> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>
>>>> Hej!
>>>>
>>>> Jag behöver tips på något program som kan konvertera skannade pdf-filer
>>>> till csv-format. Det handlar alltså om skannade filer som tekniskt sett är
>>>> bilder.
>>>>
>>>> Hälsningar,
>>>>
>>>> Erik Hjärtberg
>>>>
>>>> --
>>>> Erik Hjärtberg
>>>> text at erikhjartberg.se
>>>> 070-273 67 36
>>>>
>>>>
>>>> _______________________________________________
>>>> okfn-se mailing list
>>>> okfn-se at lists.okfn.org
>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>
>>>
>>>
>>>
>>>  --
>>> Rikard Fröberg, Rådgivare offentlig sektor
>>> Morus konsult AB | http://morus.se | rikard at morus.se
>>> 0700 - 90 69 64  | 031 385 88 93
>>>
>>>
>>> --
>>> Erik Hjärtbergtext at erikhjartberg.se
>>> 070-273 67 36
>>>
>>>
>>
>>
>> --
>> Rikard Fröberg, Rådgivare offentlig sektor
>> Morus konsult AB | http://morus.se | rikard at morus.se
>> 0700 - 90 69 64  | 031 385 88 93
>>
>
>
>
> --
> Rikard Fröberg, Rådgivare offentlig sektor
> Morus konsult AB | http://morus.se | rikard at morus.se
> 0700 - 90 69 64  | 031 385 88 93
>

-- 
Rikard Fröberg, Rådgivare offentlig sektor
Morus konsult AB | http://morus.se | rikard at morus.se
0700 - 90 69 64  | 031 385 88 93
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140429/ab975a2c/attachment-0004.html>