[okfn-br] Economia do digital: jornais, livrarias e bibiotecas

Lucas Ferreira Mation lucasmation em gmail.com
Segunda Dezembro 26 08:45:27 UTC 2011


Feliz Natal Pessoal!

Eu ja fiz uma boa pesquisa sobre estas alternativas de OCR e idéias novas
de transcrição voluntária. Coloquei todas as referências que fui achando
num pad:

http://piratepad.net/FWdb4HxXUy

tem alguns projetos interessantes, talvez ajude. Por favor adicionem novos
conteúdos lá.

Tom, uma coisa que eu não entendo sobre este "Open Shaksper":
é um projeto de anotação (tagging), para as pessoas trocarem comentários
sobre partes de texto?
e/ou
é um projeto de transcrição/correção colaborativa de textos e cartas que
 não dispõem com texto em formato de máquina (apenas as imagens
digitalizadas)?

Quanto ao OCR, tradicional, como o incorporado no Tesseract, a grande
questão é a data de publicação do livro.
Pra livros "modernos", isso é, publicados já em máquinas de impressão
modernas, que se difundiram bastante entre 1930 e 1950 no Brasil, o OCR
funciona bem. ]
O problema é o OCR nos textos impressos da forma antiga, muito similar ao
que o Gutemberg fazia, com cada página tendo que ser montada por pecinhas
para cada letra.
como nem todos os "a"s eram iguais, e os alinhamentos também variavam, isso
fica bastante difícil para OCR.

abs
Lucas


2011/12/25 Capi Etheriel <barraponto em gmail.com>

> everton, vc conhece um guia pra usar o tesseract? tem uma GUI? ultima vez
> que eu vi não tinha.
>
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> http://lists.okfn.org/mailman/listinfo/okfn-br
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20111226/3c721219/attachment-0003.html>


Mais detalhes sobre a lista de discussão okfn-br