[okfn-br] Economia do digital: jornais, livrarias e bibiotecas

Everton Zanella Alvarenga everton137 em gmail.com
Quinta Janeiro 5 12:55:51 UTC 2012


Olá!

Respondendo ao Capi e ao Lucas (atrasado, desculpem!).
Em 25 de dezembro de 2011 23:12, Capi Etheriel <barraponto em gmail.com>
escreveu:> everton, vc conhece um guia pra usar o tesseract? tem uma
GUI? ultima vez> que eu vi não tinha.

Usei apenas a página manual do programa. Essencialmente, basta você
ter um arquivo tiff
<http://pt.wikipedia.org/wiki/Tagged_Image_File_Format> e digitar

$ tesseract arquivo.tif arquivo.txt [-l <língua do texto>]

Criei o arquivo a partir do digitalizar que vem como padrão no gnome
do Ubuntu (teste nas versões 10.4 e 11.10).
Em 26 de dezembro de 2011 06:45, Lucas Ferreira Mation
<lucasmation em gmail.com> escreveu:

> Eu ja fiz uma boa pesquisa sobre estas alternativas de OCR e idéias novas de
> transcrição voluntária. Coloquei todas as referências que fui achando num
> pad:
>
> http://piratepad.net/FWdb4HxXUy

Valeu, Lucas! Migrei esse conteúdo para o pad que tinha criado para a
questão da digitalização, que acredito que poderá ser útil para o
Textus

http://okfnpad.org/scratchpad

> Tom, uma coisa que eu não entendo sobre este "Open Shaksper":
> é um projeto de anotação (tagging), para as pessoas trocarem comentários
> sobre partes de texto?

Sim, isso mesmo. Pensei em aprimorar o annotator, para ficar algo como
o diigo.com, um serviço que uso para guardar meus bookmarks online e
possui algumas características interessantes, como fazer anotações
numa página e compartilhá-las através de um link, veja um exemplo

http://diigo.com/0lzhd

Mas é preciso achar desenvolvedor de JavaScript (não manjo muito de
JavaScript, mas pretendo fuçar um pouco no annotator esse semestre).

> é um projeto de transcrição/correção colaborativa de textos e cartas que
>  não dispõem com texto em formato de máquina (apenas as imagens
> digitalizadas)?

Para mim são apenas anotações, mas me parece uma ótima idéia! Podemos
colocar na incubadora de ideias da OKFn (post de blog sobre o
incubador de idéias da OKFN em breve)

http://ideas.okfn.org/

As idéias no pad sobre OCR vou colocar, se formar um corpo fechado e
útil de idéias. Podemos juntar as duas propostas.

> Quanto ao OCR, tradicional, como o incorporado no Tesseract, a grande
> questão é a data de publicação do livro.
> Pra livros "modernos", isso é, publicados já em máquinas de impressão
> modernas, que se difundiram bastante entre 1930 e 1950 no Brasil, o OCR
> funciona bem. ]
> O problema é o OCR nos textos impressos da forma antiga, muito similar ao
> que o Gutemberg fazia, com cada página tendo que ser montada por pecinhas
> para cada letra.
> como nem todos os "a"s eram iguais, e os alinhamentos também variavam, isso
> fica bastante difícil para OCR.

Sugiro muito ver essa apresentação do criador do RE-CAPTCHA!

http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration.html

Há a explicação do von Ahn sobre como contornaram esse problema
através da digitalização feita por milhões de pessoas usando CAPTCHA.
Sua idéia pode extender isso junto ao Textus, acredito.

Alguns comentários meus aqui

http://br.wikimedia.org/wiki/Brainstorming#Duolingo_e_reCAPTCHA_.28en.29:_tradu.C3.A7.C3.A3o_e_digitaliza.C3.A7.C3.A3o_colaborativa

Abraços e bom ano ano novo para todos!

Tom




Mais detalhes sobre a lista de discussão okfn-br