[Okfn-se] Skannad pdf till csv?

miska knapek miska at knapek.org
Fri Apr 11 09:59:47 UTC 2014


Hej Erik,

Jo, det är helt förståligt det du säger. Ibland kommer tekniken lite i
vägen.

Min egen erfarenhet av OCR i 90-talet var att om texten var kort och
behövde komma in i datorn exakt som den var på papperet, så gick det
snabbare att skriva in den för hand. Man använder ungefär lika länge, eller
länge, tid att korrekturläsa OCR"ad text som att skriva in tingen själv och
korrekturläsa... i varje fall när det gäller korta texter.

lucka till!

miska




2014-04-11 12:55 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:

> Eftersom jag i första hand är journalist och inte tekniker funderar jag på
> att skriva in texten för hand i stället. Teknik är inget självändamål.
>
> Fast återkom gärna om ni hittat ett sätt ni själva vet fungerar och inte
> kräver så mycket arbete. Sökmotorer har jag också tillgång till.
>
> Erik Hjärtberg
>
>
>
> miska knapek <miska at knapek.org> skrev:
>
>> Hej igen!
>>
>> Jo, jag fick ett svar om ett riktig bra OCR paket, som heter Tesseract.
>> Installationsinstruktioner finnes här:
>> https://code.google.com/p/tesseract-ocr/wiki/ReadMe
>>
>> Bara en liten notis angående OCR - det är ganska bra att korrekturläsa
>> det scannade materialet. Allt känns inte igen av OCR mekanismerna. Dock
>> verkar dina original ganska utmärkta, och jag skulle nog föreställa mig att
>> det inte är mycket som inte igenkänns med sådana original.
>>
>> Sedan kanske Tabula kan strukturera det som scannats in, så det kommer in
>> i excel lättare.
>>
>> Hoppas det fixar sig!
>>
>> altl väl,
>>
>> miska
>>
>>
>> 2014-04-10 22:03 GMT+03:00 miska knapek <miska at knapek.org>:
>>
>>> Hej allihop!
>>>
>>> Jo, då har man skickat ut frågan till Datajournalistikgruppen på
>>> facebook.
>>>
>>> Erik - jag tror du är inne på rätt spår mht att Tabula inte klarar läsa
>>> rena bilder.
>>> Datajournalisterna har fått slåss en hel del med en hel massa printade
>>> och sedan inskannade pdf'ar ...sparade som pdf och sedan skickade till
>>> foi-sökande journalister. Så om inte journalisterna har några bra
>>> erfarenheter att dela med sig om.
>>>
>>> Jag hör i varje fall av mig om var som skrivs därute i facebook världen
>>> ;)
>>>
>>> allt väl,
>>>
>>> miska
>>>
>>>
>>> 2014-04-10 20:13 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>
>>> Du skrev att du inte visste om Tabula klarar av att konvertera skannade
>>>> filer som tekniskt sett är bilder. Därför håller jag just nu på att prova
>>>> program som påstås klara av det.
>>>>
>>>> Rikard bad mig skicka pdf-filen. Därför skickade jag pdf-filen.
>>>>
>>>> Hälsningar,
>>>>
>>>> Erik Hjärtberg
>>>>
>>>>
>>>>
>>>> Mattias <mattias at okfn.se> skrev:
>>>>
>>>>> @Erik - Kolla gärna in mitt tips Tabula jag skickade igår & Rikards
>>>>> lösning tidigare.
>>>>> Det dokumentet från Västerås är nog ganska lätt att överföra till
>>>>> excel via Tabula. Markera & Copy-Paste som jag förstår!
>>>>>
>>>>> @Miska - Can you ask in the Nordic Datajournalism Facebook group for
>>>>> Erik?
>>>>>
>>>>> Best,
>>>>> Mattias
>>>>>
>>>>> On 10/04/14 18:48, Erik Hjärtberg wrote:
>>>>>
>>>>> Den här filen, och fler i samma stil, vill jag konvertera till csv.
>>>>> Åtminstone den rent ekonomiska informationen:
>>>>>
>>>>>
>>>>> http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>>>>>
>>>>> Erik Hjärtberg
>>>>>
>>>>>
>>>>> 2014-04-10 16:05, Rikard Fröberg skrev:
>>>>>
>>>>> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>>>>>
>>>>>  Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat själv
>>>>> men om du skickar PDF:en kan jag testa om du vill).
>>>>>
>>>>>  [1] http://ubuntuforums.org/showthread.php?t=880471
>>>>>
>>>>>  English version: Hi, found [1] at ubuntuforums but have not tried it
>>>>> myself. If you send the PDF I'd be happy to give it a try.
>>>>>
>>>>>  Cheers/Vänligen
>>>>>
>>>>>  Rikard
>>>>>
>>>>>
>>>>> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>>>
>>>>>> Hej!
>>>>>>
>>>>>> Jag behöver tips på något program som kan konvertera skannade
>>>>>> pdf-filer till csv-format. Det handlar alltså om skannade filer som
>>>>>> tekniskt sett är bilder.
>>>>>>
>>>>>> Hälsningar,
>>>>>>
>>>>>> Erik Hjärtberg
>>>>>>
>>>>>> --
>>>>>> Erik Hjärtberg
>>>>>> text at erikhjartberg.se
>>>>>> 070-273 67 36
>>>>>>
>>>>>>
>>>>>> _______________________________________________
>>>>>> okfn-se mailing list
>>>>>> okfn-se at lists.okfn.org
>>>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>>
>>>>>
>>>>>
>>>>>
>>>>>  --
>>>>> Rikard Fröberg, Rådgivare offentlig sektor
>>>>> Morus konsult AB | http://morus.se | rikard at morus.se
>>>>> 0700 - 90 69 64  | 031 385 88 93
>>>>>
>>>>>
>>>>> --
>>>>> Erik Hjärtbergtext at erikhjartberg.se
>>>>> 070-273 67 36
>>>>>
>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> okfn-se mailing listokfn-se at lists.okfn.orghttps://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>
>>>>>
>>>>>
>>>> --
>>>> Erik Hjärtberg
>>>> text at erikhjartberg.se
>>>> 070-273 67 36
>>>>
>>>> _______________________________________________
>>>> okfn-se mailing list
>>>> okfn-se at lists.okfn.org
>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>
>>>>
>>>
>>>
>>> --
>>> miska michael knapek - your local illusionist (designer)
>>> mob. +358-50-320-2616
>>> web: http://knapek.org
>>> http://twitter.com/miskaknapek
>>> animations: http://vimeo.com/miska
>>> images: http://flickr.com/miska_too/sets
>>>
>>>
>>>
>>
>>
>> --
>> miska michael knapek - your local illusionist (designer)
>> mob. +358-50-320-2616
>> web: http://knapek.org
>> http://twitter.com/miskaknapek
>> animations: http://vimeo.com/miska
>> images: http://flickr.com/miska_too/sets
>>
>>
>>
> --
> Erik Hjärtberg
> text at erikhjartberg.se
> 070-273 67 36
>



-- 
miska michael knapek - your local illusionist (designer)
mob. +358-50-320-2616
web: http://knapek.org
http://twitter.com/miskaknapek
animations: http://vimeo.com/miska
images: http://flickr.com/miska_too/sets
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140411/d06981b7/attachment-0004.html>


More information about the okfn-se mailing list