[okfn-br] OCR Legislativo - Novo projeto OKFN Br

Pedro Markun pedro em esfera.mobi
Sábado Março 3 03:21:35 UTC 2012


Opa,

parece que vou ter que mudar de alvo! Aparentemente nesses últimos dias a
câmara implementou um novo sistema para disponibilizar os registros
históricos dos discursos.

Ao invés dos TIFs em um applet java bizarro. Ele agora exporta um PDF do
diário oficial com o texto selecionavel.

http://storage.markun.com.br/sparkle/publicFolder/0aa121f61019c16c61f5e8623d913c99c0d005ae?hash=87a7e6415e23b04caddf0f8bc9428bbcfa46d068&name=D010920334.TIF

http://storage.markun.com.br/sparkle/publicFolder/0aa121f61019c16c61f5e8623d913c99c0d005ae?hash=0f0e32a3f6512a7d9588156daf423d2dc89b1d98&name=DCD09MAR1964.pdf

O texto ainda vem com uma série de erros e imprecisões... então talvez
ainda valha a pena fazer a interface PyBossa -> Correção de textos |
Separados por paragrafos?

Mas já facilitou bem.

abs,
Pedro Markun
ps: Eu me lembro que desde o Consegi (onde conheci o Rufus!) que essa
história dos acervos de discurso estava quicando... legal ver que tem coisa
saindo do forno.

2012/3/2 Everton Zanella Alvarenga <everton.alvarenga em okfn.org>

> Em 2 de março de 2012 10:18, Pedro Markun <pedro em esfera.mobi> escreveu:
>
> > roger that, vou tentar produzir essa documentação mais consistente hoje
> e ir
> > dando feedbacks por aqui ao longo do percurso.
> >
> > Por enquanto eu tenho um sistema funcionando mal e porcamente baseado
> > naquele velho código do datadigitizer:
> >
> > https://gitorious.org/ocr-no-legislativo/ocr-no-legislativo
>
> Muito bom! Já clonei aqui e vou manter o sistema atualizado, mas não
> posso olhar isso até sábado à meia noite (chapéu da WMF até lá :D).
>
> > O PyBossa já esta rodando aqui, vou tentar readaptar pra rodar nele.
> >
> > Devo chamar também na semana que vem uma oficina/roda de discussão pra
> > apresentar e testar um pouco o tesseract e o OCRopus.
>
> Será que não podemos tentar num horário em que o Nigini também possa?
> Me parece que ele é o desenvolvedor brasileiro que está mais a par do
> PyBossa e poderíamos fazer na hora um post de blog sobre o evento e
> como alguém pode contribuir para o PyBossa e o que é o PyBossa.
>
> Eu já brinquei um pouco com o tesseract e estou muito interessado em
> ajudar com ele!
>
> Vamos nos falando. Por favor, me mantenha informado, pois tenho muito
> interesse em criar um bando de livros digitalizados (já venho falando
> com gente da USP e da UNESP sobre isso).
>
> Até!
>
> Tom
>
> --
> Everton Zanella Alvarenga (also Tom)
> Open Knowledge Foundation Brasil
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> http://lists.okfn.org/mailman/listinfo/okfn-br
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20120303/43c05749/attachment-0003.html>


Mais detalhes sobre a lista de discussão okfn-br