[Okfn-se] Skannad pdf till csv?

miska knapek miska at knapek.org
Fri Apr 11 11:02:05 UTC 2014


och så kom det här också - kanske något mer förstående å den tekniska
tröskeln…


*André Jönsson <https://www.facebook.com/andre.joensson?fref=ufi> Ran into
this problem recently, and the quality of different OCR solutions vary
very, very, much, with Tesseract being one of the most versatile but also
one of the more complicated (for my needs. Might be I didn't find the best
gui or whatever). If you're willing to pay, and don't have the time to
fiddle too much, I'd gladly recommend TOCR. It has the advantage of
(easily, at least, I know Tesseract can do the same) being able to select
which characters are in the document - so that it doesn't end up with ÀÓÿ
if you have smudges on you ÄÖy-s, for example. *


Allt väl,

miska


2014-04-11 12:59 GMT+03:00 miska knapek <miska at knapek.org>:

> Hej Erik,
>
> Jo, det är helt förståligt det du säger. Ibland kommer tekniken lite i
> vägen.
>
> Min egen erfarenhet av OCR i 90-talet var att om texten var kort och
> behövde komma in i datorn exakt som den var på papperet, så gick det
> snabbare att skriva in den för hand. Man använder ungefär lika länge, eller
> länge, tid att korrekturläsa OCR"ad text som att skriva in tingen själv och
> korrekturläsa... i varje fall när det gäller korta texter.
>
> lucka till!
>
> miska
>
>
>
>
> 2014-04-11 12:55 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>
> Eftersom jag i första hand är journalist och inte tekniker funderar jag på
>> att skriva in texten för hand i stället. Teknik är inget självändamål.
>>
>> Fast återkom gärna om ni hittat ett sätt ni själva vet fungerar och inte
>> kräver så mycket arbete. Sökmotorer har jag också tillgång till.
>>
>> Erik Hjärtberg
>>
>>
>>
>> miska knapek <miska at knapek.org> skrev:
>>
>>> Hej igen!
>>>
>>> Jo, jag fick ett svar om ett riktig bra OCR paket, som heter Tesseract.
>>> Installationsinstruktioner finnes här:
>>> https://code.google.com/p/tesseract-ocr/wiki/ReadMe
>>>
>>> Bara en liten notis angående OCR - det är ganska bra att korrekturläsa
>>> det scannade materialet. Allt känns inte igen av OCR mekanismerna. Dock
>>> verkar dina original ganska utmärkta, och jag skulle nog föreställa mig att
>>> det inte är mycket som inte igenkänns med sådana original.
>>>
>>> Sedan kanske Tabula kan strukturera det som scannats in, så det kommer
>>> in i excel lättare.
>>>
>>> Hoppas det fixar sig!
>>>
>>> altl väl,
>>>
>>> miska
>>>
>>>
>>> 2014-04-10 22:03 GMT+03:00 miska knapek <miska at knapek.org>:
>>>
>>>> Hej allihop!
>>>>
>>>> Jo, då har man skickat ut frågan till Datajournalistikgruppen på
>>>> facebook.
>>>>
>>>> Erik - jag tror du är inne på rätt spår mht att Tabula inte klarar läsa
>>>> rena bilder.
>>>> Datajournalisterna har fått slåss en hel del med en hel massa printade
>>>> och sedan inskannade pdf'ar ...sparade som pdf och sedan skickade till
>>>> foi-sökande journalister. Så om inte journalisterna har några bra
>>>> erfarenheter att dela med sig om.
>>>>
>>>> Jag hör i varje fall av mig om var som skrivs därute i facebook världen
>>>> ;)
>>>>
>>>> allt väl,
>>>>
>>>> miska
>>>>
>>>>
>>>> 2014-04-10 20:13 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>>
>>>> Du skrev att du inte visste om Tabula klarar av att konvertera skannade
>>>>> filer som tekniskt sett är bilder. Därför håller jag just nu på att prova
>>>>> program som påstås klara av det.
>>>>>
>>>>> Rikard bad mig skicka pdf-filen. Därför skickade jag pdf-filen.
>>>>>
>>>>> Hälsningar,
>>>>>
>>>>> Erik Hjärtberg
>>>>>
>>>>>
>>>>>
>>>>> Mattias <mattias at okfn.se> skrev:
>>>>>
>>>>>> @Erik - Kolla gärna in mitt tips Tabula jag skickade igår & Rikards
>>>>>> lösning tidigare.
>>>>>> Det dokumentet från Västerås är nog ganska lätt att överföra till
>>>>>> excel via Tabula. Markera & Copy-Paste som jag förstår!
>>>>>>
>>>>>> @Miska - Can you ask in the Nordic Datajournalism Facebook group for
>>>>>> Erik?
>>>>>>
>>>>>> Best,
>>>>>> Mattias
>>>>>>
>>>>>> On 10/04/14 18:48, Erik Hjärtberg wrote:
>>>>>>
>>>>>> Den här filen, och fler i samma stil, vill jag konvertera till csv.
>>>>>> Åtminstone den rent ekonomiska informationen:
>>>>>>
>>>>>>
>>>>>> http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>>>>>>
>>>>>> Erik Hjärtberg
>>>>>>
>>>>>>
>>>>>> 2014-04-10 16:05, Rikard Fröberg skrev:
>>>>>>
>>>>>> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>>>>>>
>>>>>>  Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat
>>>>>> själv men om du skickar PDF:en kan jag testa om du vill).
>>>>>>
>>>>>>  [1] http://ubuntuforums.org/showthread.php?t=880471
>>>>>>
>>>>>>  English version: Hi, found [1] at ubuntuforums but have not tried
>>>>>> it myself. If you send the PDF I'd be happy to give it a try.
>>>>>>
>>>>>>  Cheers/Vänligen
>>>>>>
>>>>>>  Rikard
>>>>>>
>>>>>>
>>>>>> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>>>>
>>>>>>> Hej!
>>>>>>>
>>>>>>> Jag behöver tips på något program som kan konvertera skannade
>>>>>>> pdf-filer till csv-format. Det handlar alltså om skannade filer som
>>>>>>> tekniskt sett är bilder.
>>>>>>>
>>>>>>> Hälsningar,
>>>>>>>
>>>>>>> Erik Hjärtberg
>>>>>>>
>>>>>>> --
>>>>>>> Erik Hjärtberg
>>>>>>> text at erikhjartberg.se
>>>>>>> 070-273 67 36
>>>>>>>
>>>>>>>
>>>>>>> _______________________________________________
>>>>>>> okfn-se mailing list
>>>>>>> okfn-se at lists.okfn.org
>>>>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>>>
>>>>>>
>>>>>>
>>>>>>
>>>>>>  --
>>>>>> Rikard Fröberg, Rådgivare offentlig sektor
>>>>>> Morus konsult AB | http://morus.se | rikard at morus.se
>>>>>> 0700 - 90 69 64  | 031 385 88 93
>>>>>>
>>>>>>
>>>>>> --
>>>>>> Erik Hjärtbergtext at erikhjartberg.se
>>>>>> 070-273 67 36
>>>>>>
>>>>>>
>>>>>>
>>>>>> _______________________________________________
>>>>>> okfn-se mailing listokfn-se at lists.okfn.orghttps://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>>
>>>>>>
>>>>>>
>>>>> --
>>>>> Erik Hjärtberg
>>>>> text at erikhjartberg.se
>>>>> 070-273 67 36
>>>>>
>>>>> _______________________________________________
>>>>> okfn-se mailing list
>>>>> okfn-se at lists.okfn.org
>>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>
>>>>>
>>>>
>>>>
>>>> --
>>>> miska michael knapek - your local illusionist (designer)
>>>> mob. +358-50-320-2616
>>>> web: http://knapek.org
>>>> http://twitter.com/miskaknapek
>>>> animations: http://vimeo.com/miska
>>>> images: http://flickr.com/miska_too/sets
>>>>
>>>>
>>>>
>>>
>>>
>>> --
>>> miska michael knapek - your local illusionist (designer)
>>> mob. +358-50-320-2616
>>> web: http://knapek.org
>>> http://twitter.com/miskaknapek
>>> animations: http://vimeo.com/miska
>>> images: http://flickr.com/miska_too/sets
>>>
>>>
>>>
>> --
>> Erik Hjärtberg
>> text at erikhjartberg.se
>> 070-273 67 36
>>
>
>
>
> --
> miska michael knapek - your local illusionist (designer)
> mob. +358-50-320-2616
> web: http://knapek.org
> http://twitter.com/miskaknapek
> animations: http://vimeo.com/miska
> images: http://flickr.com/miska_too/sets
>
>
>


-- 
miska michael knapek - your local illusionist (designer)
mob. +358-50-320-2616
web: http://knapek.org
http://twitter.com/miskaknapek
animations: http://vimeo.com/miska
images: http://flickr.com/miska_too/sets
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140411/edea5fab/attachment-0004.html>


More information about the okfn-se mailing list