[okfn-br] OCR Legislativo - Novo projeto OKFN Br

Pedro Markun pedro em esfera.mobi
Sábado Março 3 03:54:03 UTC 2012


Opa,

eu sou da okfn br então, dado que estou trabalhando nisso, digo logo que
tem coisa no forno :)

Na THacker, o Zuardi montou um protótipo de bookscanner seguindo a receita
do Juliano Spyer. Estou tentando pilhar a metamáquina e o garoa para
construir um outro protótipo usando a impressora 3d... mas eles estão meio
ocupados tentando fazer o projeto da impressora 3d virar (go figure!)

Por fim, sobre o texto... abre o PDF e você vai ver. Eles rodaram um
software de OCR e ele, como todo mal software de OCR não reconhece
corretamente todos os caracteres.

O framework que eu estou desenvolvendo tem (tinha) três partes:
1) Sistema de automação de OCR
** O cara joga uma imagem pro servidro, o servidor processa e retorna um
txt.
2) Sistema de crowdsourcing pra correção do texto
** Esse txt vai prum app no PyBossa e é divido em paragrafos - a janela do
lado mostra a imagem - ai as pessoas vão corrigindo e dando 'check' quando
estiver tudo ok.
3) Armazenagem no Textus
** O texto pronto vai pra Textus e fica aberto para comentários, citações e
todos os goodies do Textus.

No caso da Câmara, o passo 1 já esta feito. Até da pra melhorar e tratar o
PDF como imagem, refazer o OCR (tem uns macetes com limitação de digitos e
continuo achando que pra sets como esse vale imprimir um training set com a
fonte correta) mas me parece contraproducente. Vou começar logo o passo 2 e
depois - se for o caso - volto pro 1.

abs,
Pedro Markun

2012/3/3 Everton Zanella Alvarenga <everton137 em gmail.com>

> Vou estudar o PyBossa, pois ainda não entendo o suficiente (do ponto
> de vista programático :) para poder trabalhar com ele, por isso a
> sugestão de chamar o Nigini.
>
> "O texto ainda vem com uma série de erros e imprecisões... então
> talvez ainda valha a pena fazer a interface PyBossa -> Correção de
> textos | Separados por paragrafos?"
>
> Não entendi, Pedro. Você poderia explicar, por favor?
>
> Em 3 de março de 2012 00:21, Pedro Markun <pedro em esfera.mobi> escreveu:
>
> > ps: Eu me lembro que desde o Consegi (onde conheci o Rufus!) que essa
> > história dos acervos de discurso estava quicando... legal ver que tem
> coisa
> > saindo do forno.
>
> Alguém mais da transparência hacker está trabalhando em digitalização
> de livros? Seria bacana chamar também se tiver.
>
> Pelo OKFn Brasil não tem nada do forno nesse sentido. Existem
> conversas com alguns parceiros que trabalham com digitalização, que
> poderá ser útil para algo como o Textus. Mas essas conversas demoram,
> não é eu chegar numa editora e sair escaneando os livros deles. Então
> não tem nada no formo, no sentido de fazer as coisas com a calma
> necessária (e direito).
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> http://lists.okfn.org/mailman/listinfo/okfn-br
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20120303/ab2d70c1/attachment-0004.html>


Mais detalhes sobre a lista de discussão okfn-br