[okfn-cz] kvalitní ocr do xls?
Jindřich Mynarz
mynarzjindrich at gmail.com
Mon Apr 23 15:00:27 UTC 2012
Zkušenosti s tím mají například v Pro Publica [1] nebo v Drawing by
Numbers [2], kde doporučují OCR software Tesseract od Google [3].
Podle mých osobních zkušeností z digitalizace v Národní technické
knihovně bych (zvláště pro české dokumenty s diakritikou) doporučil si
připlatit a pořídit si ABBYY FineReader [4], který rozpoznává znaky s
velmi uspokojivou přesností.
S pozdravem,
Jindřich Mynarz
[1] http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide
[2] http://drawingbynumbers.org/data-design-basics/note-3-opening-open-data#anchor-5
[3] http://code.google.com/p/tesseract-ocr/
[4] http://www.abbyy.cz/products/document_conversion/finereader/
On Mon, Apr 23, 2012 at 4:21 PM, Jan Kotecky <jan.kotecky at oziveni.cz> wrote:
> Zdravím vespolek.
> Také vám úředníci poskytnuté tabulky rádi buď exportují do pdf nebo ještě
> lépe vytisnkou, připíší "příloha 1" a následně nascanují?.)
> A jestli ano, "vracíte" si dokumenty zpátky do xls? Chvíli jsem zkoušel
> něco hledat a z hodnocení na webu (z freewaru) dobře vyšlo
> http://www.onlineocr.net/ - nicméně ideál to není, oscanuje to jen první
> stránku a navíc ne zrovna spolehlivě.
> Nemáte nějaký osvědčený freeware?
>
> Díky,
>
> Janek Kotecký
>
>
> --
> -- Oživení, o.s. Muchova 13/232 160 00 Praha 6 Tel: +420 257 531 983
> Mobil: +420 725 919 943 jan.kotecky at oziveni.cz http://www.oziveni.cz
> http://www.facebook.com/BezKorupce
>
>
>
> Prosazujeme principy transparentní veřejné správy a udržitelného rozvoje.
>
>
>
>
> _______________________________________________
> okfn-cz mailing list
> okfn-cz at lists.okfn.org
> http://lists.okfn.org/mailman/listinfo/okfn-cz
>
More information about the okfn-cz
mailing list