[Okfn-se] Skannad pdf till csv?

Erik Hjärtberg hjartberg at hushmail.com
Fri Apr 11 09:55:29 UTC 2014


Eftersom jag i första hand är journalist och inte tekniker funderar jag på att skriva in texten för hand i stället. Teknik är inget självändamål.

Fast återkom gärna om ni hittat ett sätt ni själva vet fungerar och inte kräver så mycket arbete. Sökmotorer har jag också tillgång till.

Erik Hjärtberg



miska knapek <miska at knapek.org> skrev:
>Hej igen!
>
>Jo, jag fick ett svar om ett riktig bra OCR paket, som heter Tesseract.
>Installationsinstruktioner finnes här:
>https://code.google.com/p/tesseract-ocr/wiki/ReadMe
>
>Bara en liten notis angående OCR - det är ganska bra att korrekturläsa
>det
>scannade materialet. Allt känns inte igen av OCR mekanismerna. Dock
>verkar
>dina original ganska utmärkta, och jag skulle nog föreställa mig att
>det
>inte är mycket som inte igenkänns med sådana original.
>
>Sedan kanske Tabula kan strukturera det som scannats in, så det kommer
>in i
>excel lättare.
>
>Hoppas det fixar sig!
>
>altl väl,
>
>miska
>
>
>2014-04-10 22:03 GMT+03:00 miska knapek <miska at knapek.org>:
>
>> Hej allihop!
>>
>> Jo, då har man skickat ut frågan till Datajournalistikgruppen på
>facebook.
>>
>> Erik - jag tror du är inne på rätt spår mht att Tabula inte klarar
>läsa
>> rena bilder.
>> Datajournalisterna har fått slåss en hel del med en hel massa
>printade och
>> sedan inskannade pdf'ar ...sparade som pdf och sedan skickade till
>> foi-sökande journalister. Så om inte journalisterna har några bra
>> erfarenheter att dela med sig om.
>>
>> Jag hör i varje fall av mig om var som skrivs därute i facebook
>världen ;)
>>
>> allt väl,
>>
>> miska
>>
>>
>> 2014-04-10 20:13 GMT+03:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>
>> Du skrev att du inte visste om Tabula klarar av att konvertera
>skannade
>>> filer som tekniskt sett är bilder. Därför håller jag just nu på att
>prova
>>> program som påstås klara av det.
>>>
>>> Rikard bad mig skicka pdf-filen. Därför skickade jag pdf-filen.
>>>
>>> Hälsningar,
>>>
>>> Erik Hjärtberg
>>>
>>>
>>>
>>> Mattias <mattias at okfn.se> skrev:
>>>
>>>> @Erik - Kolla gärna in mitt tips Tabula jag skickade igår & Rikards
>>>> lösning tidigare.
>>>> Det dokumentet från Västerås är nog ganska lätt att överföra till
>excel
>>>> via Tabula. Markera & Copy-Paste som jag förstår!
>>>>
>>>> @Miska - Can you ask in the Nordic Datajournalism Facebook group
>for
>>>> Erik?
>>>>
>>>> Best,
>>>> Mattias
>>>>
>>>> On 10/04/14 18:48, Erik Hjärtberg wrote:
>>>>
>>>> Den här filen, och fler i samma stil, vill jag konvertera till csv.
>>>> Åtminstone den rent ekonomiska informationen:
>>>>
>>>>
>>>>
>http://www.vasteras.se/OvrigaDokument/Kommunstyrelse/11%20%C3%85rsst%C3%A4mma%20i%20V%C3%A4ster%C3%A5s%20Flygplats%20AB%202012.pdf
>>>>
>>>> Erik Hjärtberg
>>>>
>>>>
>>>> 2014-04-10 16:05, Rikard Fröberg skrev:
>>>>
>>>> Hej! (Är det svenska som gäller på okfn-se eller engelska? ;-) )
>>>>
>>>>  Hittade en fråga-svar-tråd på ubuntuforums[1] (har inte provat
>själv
>>>> men om du skickar PDF:en kan jag testa om du vill).
>>>>
>>>>  [1] http://ubuntuforums.org/showthread.php?t=880471
>>>>
>>>>  English version: Hi, found [1] at ubuntuforums but have not tried
>it
>>>> myself. If you send the PDF I'd be happy to give it a try.
>>>>
>>>>  Cheers/Vänligen
>>>>
>>>>  Rikard
>>>>
>>>>
>>>> 2014-04-09 22:01 GMT+02:00 Erik Hjärtberg <hjartberg at hushmail.com>:
>>>>
>>>>> Hej!
>>>>>
>>>>> Jag behöver tips på något program som kan konvertera skannade
>pdf-filer
>>>>> till csv-format. Det handlar alltså om skannade filer som tekniskt
>sett är
>>>>> bilder.
>>>>>
>>>>> Hälsningar,
>>>>>
>>>>> Erik Hjärtberg
>>>>>
>>>>> --
>>>>> Erik Hjärtberg
>>>>> text at erikhjartberg.se
>>>>> 070-273 67 36
>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> okfn-se mailing list
>>>>> okfn-se at lists.okfn.org
>>>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>>>
>>>>
>>>>
>>>>
>>>>  --
>>>> Rikard Fröberg, Rådgivare offentlig sektor
>>>> Morus konsult AB | http://morus.se | rikard at morus.se
>>>> 0700 - 90 69 64  | 031 385 88 93
>>>>
>>>>
>>>> --
>>>> Erik Hjärtbergtext at erikhjartberg.se
>>>> 070-273 67 36
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> okfn-se mailing
>listokfn-se at lists.okfn.orghttps://lists.okfn.org/mailman/listinfo/okfn-se
>>>>
>>>>
>>>>
>>> --
>>> Erik Hjärtberg
>>> text at erikhjartberg.se
>>> 070-273 67 36
>>>
>>> _______________________________________________
>>> okfn-se mailing list
>>> okfn-se at lists.okfn.org
>>> https://lists.okfn.org/mailman/listinfo/okfn-se
>>>
>>>
>>
>>
>> --
>> miska michael knapek - your local illusionist (designer)
>> mob. +358-50-320-2616
>> web: http://knapek.org
>> http://twitter.com/miskaknapek
>> animations: http://vimeo.com/miska
>> images: http://flickr.com/miska_too/sets
>>
>>
>>
>
>
>-- 
>miska michael knapek - your local illusionist (designer)
>mob. +358-50-320-2616
>web: http://knapek.org
>http://twitter.com/miskaknapek
>animations: http://vimeo.com/miska
>images: http://flickr.com/miska_too/sets

-- 
Erik Hjärtberg
text at erikhjartberg.se
070-273 67 36
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.okfn.org/pipermail/okfn-se/attachments/20140411/584ac416/attachment-0004.html>


More information about the okfn-se mailing list