[okfn-br] Dados da execução orçamentária por subprefeitura de São Paulo
Edgar Zanella Alvarenga
e em vaz.io
Quarta Setembro 10 18:06:49 UTC 2014
Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com
parâmetro -layout você possui um arquivo txt que pode ser trivialmente
convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor
usá-lo localmente.
2014-09-10 14:47 GMT-03:00 Everton Zanella Alvarenga <tom em okfn.org.br>:
> Pessoal,
>
> durante a última audiência pública do planejamento do orçamento de São
> Paulo São Paulo para 2015 (notas <
> https://pad.okfn.org/p/gastosabertos-ploa2015> do encontro na sub da Sé),
> comecei a vasculhar os dados da execução orçamentária para cada
> subprefeitura. Está tudo sem muito padrão nos PDFs de cada mês, quando
> estão completo.
>
> Vou tentar começar um script que extraia os PDFs das páginas de cada sub e
> depois começar a tentar transformar esses dados num CSV. Exemplo da sub da
> Sé
>
>
> http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/se/execucao_orcamentaria/index.php?p=27287
>
> Alguém que programa de verdade vê algo melhor que usar Beautiful Soup em
> Python para extrair os PDFs da página de cada sub? Quando eu começar o
> script (provavelmente começarei a ver isso sexta pela manhã), compartilho o
> link quando estiver minimamente funcional. Se alguém já tiver um script
> nessa linha, por favor, compartilhe o link do repositório. :)
>
> Temos um Tabula rodando em algum servidor? Caso não, acho que vai ser útil
> para começarmos a abrir esses dados. Podemos ver algum VPS da OKBR para por
> um, se não tiver nenhum estável rodando.
>
> E podemos pedir para o pessoal da Sempla para publicarem esses dados num
> formato aberto, eles motraram interesse em colaborar no último encontro de
> segunda. ;)
>
> Valeu!
>
> Tom
>
> --
> Everton Zanella Alvarenga (also Tom)
> Open Knowledge Brasil - Rede pelo Conhecimento Livre
> http://br.okfn.org
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20140910/043c5115/attachment-0005.html>
Mais detalhes sobre a lista de discussão okfn-br