[Okfn-se] Skannad pdf till csv?

miska knapek miska at knapek.org
Fri Apr 11 13:24:13 UTC 2014


och lite tipps till, från Danmark:

Tommy Birch Kaas <https://www.facebook.com/tkaas1?fref=ufi> Jeg har OCR'et
rigtig mange pdf'er med Abbyy FineReader. Med gode resultater, og det
klarer alle sprog og mærkelige tegn - og klarer også lange dokumenter uden
problemer. Fx rapporter med >2000 sider.

allt väl,

miska


2014-04-11 14:02 GMT+03:00 miska knapek <miska at knapek.org>:

> och så kom det här också - kanske något mer förstående å den tekniska
> tröskeln…
>
>
> *André Jönsson <https://www.facebook.com/andre.joensson?fref=ufi> Ran into
> this problem recently, and the quality of different OCR solutions vary
> very, very, much, with Tesseract being one of the most versatile but also
> one of the more complicated (for my needs. Might be I didn't find the best
> gui or whatever). If you're willing to pay, and don't have the time to
> fiddle too much, I'd gladly recommend TOCR. It has the advantage of
> (easily, at least, I know Tesseract can do the same) being able to select
> which characters are in the document - so that it doesn't end up with ÀÓÿ
> if you have smudges on you ÄÖy-s, for example. *
>
>
> Allt väl,
>
> miska
>
>
> 2014-04-11 12:59 GMT+03:00 miska knapek <miska at knapek.org>:
>
> Hej Erik,
>>
>> Jo, det är helt förståligt det du säger. Ibland kommer tekniken lite i
>> vägen.
>>
>> Min egen erfarenhet av OCR i 90-talet var att om texten var kort och
>> behövde komma in i datorn exakt som den var på papperet, så gick det
>> snabbare att skriva in den för hand. Man använder ungefär lika länge, eller
>> länge, tid att korrekturläsa OCR"ad text som att skriva in tingen själv och
>> korrekturläsa... i varje fall när det gäller korta texter.
>>
>> lucka till!
>>
>> miska
>>
>>
>>
>>
>> 2014-04-11 12:55 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>
>> Eftersom jag i första hand är journalist och inte tekniker funderar jag
>>> på att skriva in texten för hand i stället. Teknik är inget självändamål.
>>>
>>> Fast återkom gärna om ni hittat ett sätt ni själva vet fungerar och inte
>>> kräver så mycket arbete. Sökmotorer har jag också tillgång till.
>>>
>>> Erik Hjärtberg
>>>
>>>
>>>
>>> miska knapek <miska at knapek.org> skrev:
>>>
>>>> Hej igen!
>>>>
>>>> Jo, jag fick ett svar om ett riktig bra OCR paket, som heter Tesseract.
>>>> Installationsinstruktioner finnes här:
>>>> https://code.google.com/p/tesseract-ocr/wiki/ReadMe
>>>>
>>>> Bara en liten notis angående OCR - det är ganska bra att korrekturläsa
>>>> det scannade materialet. Allt känns inte igen av OCR mekanismerna. Dock
>>>> verkar dina original ganska utmärkta, och jag skulle nog föreställa mig att
>>>> det inte är mycket som inte igenkänns med sådana original.
>>>>
>>>> Sedan kanske Tabula kan strukturera det som scannats in, så det kommer
>>>> in i excel lättare.
>>>>
>>>> Hoppas det fixar sig!
>>>>
>>>> altl väl,
>>>>
>>>> miska
>>>>
>>>>
>>>> 2014-04-10 22:03 GMT+03:00 miska knapek <miska at knapek.org>:
>>>>
>>>>> Hej allihop!
>>>>>
>>>>> Jo, då har man skickat ut frågan till Datajournalistikgruppen på
>>>>> facebook.
>>>>>
>>>>> Erik - jag tror du är inne på rätt spår mht att Tabula inte klarar
>>>>> läsa rena bilder.
>>>>> Datajournalisterna har fått slåss en hel del med en hel massa printade
>>>>> och sedan inskannade pdf'ar ...sparade som pdf och sedan skickade till
>>>>> foi-sökande journalister. Så om inte journalisterna har några bra
>>>>> erfarenheter att dela med sig om.
>>>>>
>>>>> Jag hör i varje fall av mig om var som skrivs därute i facebook
>>>>> världen ;)
>>>>>
>>>>> allt väl,
>>>>>
>>>>> miska
>>>>>
>>>>>
>>>>> 2014-04-10 20:13 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>>>
>>>>> Du skrev att du inte visste om Tabula klarar av att konvertera
>>>>>> skannade filer som tekniskt sett är bilder. Därför håller jag just nu på
>>>>>> att prova program som påstås klara av det.
>>>>>>
>>>>>> Rikard bad mig skicka pdf-filen. Därför skickade jag pdf-filen.
>>>>>>
>>>>>> Hälsningar,
>>>>>>
>>>>>> Erik Hjärtberg
>>>>>>
>>>>>>
>>>>>>
>>>>>> Mattias <mattias at okfn.se> skrev:
>>>>>>
>>>>>>> @Erik - Kolla gärna in mitt tips Tabula jag skickade igår & Rikards
>>>>>>> lösning tidigare.
>>>>>>> Det dokumentet från Västerås är nog ganska lätt att överföra till
>>>>>>> excel via Tabula. Markera & Copy-Paste som jag förstår!
>>>>>>>
>>>>>>> @Miska - Can you ask in the Nordic Datajournalism Facebook group for
>>>>>>> Erik?
>>>>>>>
>>>>>>> Best,
>>>>>>> Mattias
>>>>>>>
>>>>>>> On 10/04/14 18:48, Erik Hjärtberg wrote:
>>>>>>>
>>>>>>> Den här filen, och fler i samma stil, vill jag konvertera till csv.
>>>>>>> Åtminstone den rent ekonomiska informationen:
>>>>>>>
>>>>>>>
>>>>>>> http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>>>>>>>
>>>>>>> Erik Hjärtberg
>>>>>>>
>>>>>>>
>>>>>>> 2014-04-10 16:05, Rikard Fröberg skrev:
>>>>>>>
>>>>>>> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>>>>>>>
>>>>>>>  Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat
>>>>>>> själv men om du skickar PDF:en kan jag testa om du vill).
>>>>>>>
>>>>>>>  [1] http://ubuntuforums.org/showthread.php?t=880471
>>>>>>>
>>>>>>>  English version: Hi, found [1] at ubuntuforums but have not tried
>>>>>>> it myself. If you send the PDF I'd be happy to give it a try.
>>>>>>>
>>>>>>>  Cheers/Vänligen
>>>>>>>
>>>>>>>  Rikard
>>>>>>>
>>>>>>>
>>>>>>> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>>>>>
>>>>>>>> Hej!
>>>>>>>>
>>>>>>>> Jag behöver tips på något program som kan konvertera skannade
>>>>>>>> pdf-filer till csv-format. Det handlar alltså om skannade filer som
>>>>>>>> tekniskt sett är bilder.
>>>>>>>>
>>>>>>>> Hälsningar,
>>>>>>>>
>>>>>>>> Erik Hjärtberg
>>>>>>>>
>>>>>>>> --
>>>>>>>> Erik Hjärtberg
>>>>>>>> text at erikhjartberg.se
>>>>>>>> 070-273 67 36
>>>>>>>>
>>>>>>>>
>>>>>>>> _______________________________________________
>>>>>>>> okfn-se mailing list
>>>>>>>> okfn-se at lists.okfn.org
>>>>>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>>  --
>>>>>>> Rikard Fröberg, Rådgivare offentlig sektor
>>>>>>> Morus konsult AB | http://morus.se | rikard at morus.se
>>>>>>> 0700 - 90 69 64  | 031 385 88 93
>>>>>>>
>>>>>>>
>>>>>>> --
>>>>>>> Erik Hjärtbergtext at erikhjartberg.se
>>>>>>> 070-273 67 36
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>> _______________________________________________
>>>>>>> okfn-se mailing listokfn-se at lists.okfn.orghttps://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>> --
>>>>>> Erik Hjärtberg
>>>>>> text at erikhjartberg.se
>>>>>> 070-273 67 36
>>>>>>
>>>>>> _______________________________________________
>>>>>> okfn-se mailing list
>>>>>> okfn-se at lists.okfn.org
>>>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>>
>>>>>>
>>>>>
>>>>>
>>>>> --
>>>>> miska michael knapek - your local illusionist (designer)
>>>>> mob. +358-50-320-2616
>>>>> web: http://knapek.org
>>>>> http://twitter.com/miskaknapek
>>>>> animations: http://vimeo.com/miska
>>>>> images: http://flickr.com/miska_too/sets
>>>>>
>>>>>
>>>>>
>>>>
>>>>
>>>> --
>>>> miska michael knapek - your local illusionist (designer)
>>>> mob. +358-50-320-2616
>>>> web: http://knapek.org
>>>> http://twitter.com/miskaknapek
>>>> animations: http://vimeo.com/miska
>>>> images: http://flickr.com/miska_too/sets
>>>>
>>>>
>>>>
>>> --
>>> Erik Hjärtberg
>>> text at erikhjartberg.se
>>> 070-273 67 36
>>>
>>
>>
>>
>> --
>> miska michael knapek - your local illusionist (designer)
>> mob. +358-50-320-2616
>> web: http://knapek.org
>> http://twitter.com/miskaknapek
>> animations: http://vimeo.com/miska
>> images: http://flickr.com/miska_too/sets
>>
>>
>>
>
>
> --
> miska michael knapek - your local illusionist (designer)
> mob. +358-50-320-2616
> web: http://knapek.org
> http://twitter.com/miskaknapek
> animations: http://vimeo.com/miska
> images: http://flickr.com/miska_too/sets
>
>
>


-- 
miska michael knapek - your local illusionist (designer)
mob. +358-50-320-2616
web: http://knapek.org
http://twitter.com/miskaknapek
animations: http://vimeo.com/miska
images: http://flickr.com/miska_too/sets
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140411/91f93659/attachment-0004.html>


More information about the okfn-se mailing list