[okfn-br] Dados da execução orçamentária por subprefeitura de São Paulo

Everton Zanella Alvarenga tom em okfn.org.br
Quarta Setembro 10 18:30:11 UTC 2014


Em 10 de setembro de 2014 15:06, Andres MRM <andres em inventati.org> escreveu:

> Acho que eu usaria algumas expressões regulares (RE).
>
> O script primeiro baixaria esse HTML (com a lista de todas as Subs):
> http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/subprefeituras/index.php
> Aplicaria então uma RE para extrair os nomes delas. Algo assim:
> "http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/historico/*"

Valeu o passo a passo, Andres. Essa etapa não precisa, já temos as
subprefeituras e bairros estruturados em JSON. [1] (Agradecimento ao
Célio, que fez isso usando RegExp num outro contexto a partir da
Wikipédia ;).

Em 10 de setembro de 2014 15:06, Edgar Zanella Alvarenga <e em vaz.io> escreveu:
>
> Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com parâmetro -layout você possui um arquivo txt que pode ser > trivialmente convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor usá-lo localmente.

Valeu, Edgar. Vou usar o pdftotext.


[1] https://pad.okfn.org/p/gastosabertos-ploa2015

{"Aricanduva/Formosa/Carrão": ["Aricanduva", "Carrão", "Vila Formosa"]}

{"Butantã": ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno",
"Vila Sônia"]}

{"Campo Limpo": ["Campo Limpo", "Capão Redondo", "Vila Andrade"]}

{"Capela do Socorro": ["Cidade Dutra", "Grajaú", "Socorro"]}

{"Casa Verde/Cachoeirinha": ["Cachoeirinha", "Casa Verde", "Limão"]}

{"Cidade Ademar": ["Cidade Ademar", "Pedreira"]}

{"Cidade Tiradentes": ["Cidade Tiradentes"]}

{"Ermelino Matarazzo": ["Ermelino Matarazzo", "Ponte Rasa"]}

{"Freguesia/Brasilândia": ["Brasilândia", "Freguesia do Ó"]}

{"Guaianases": ["Guaianases", "Lajeado"]}

{"Ipiranga": ["Cursino", "Ipiranga", "Sacomã"]}

{"Itaim Paulista": ["Itaim Paulista", "Vila Curuçá"]}

{"Itaquera": ["Cidade Líder", "Itaquera", "José Bonifácio", "Parque do Carmo"]}

{"Jabaquara": ["Jabaquara", "Jaçanã/Tremembé", "Jaçanã", "Tremembé"]}

{"Lapa": ["Barra Funda"]}

{"Jaguara": ["Jaguaré", "Lapa", "Perdizes", "Vila Leopoldina"]}

{"M'Boi Mirim": ["Jardim Ângela", "Jardim São Luís"]}

{"Mooca": ["Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé"]}

{"Parelheiros": ["Marsilac", "Parelheiros"]}

{"Penha": ["Artur Alvim", "Cangaíba", "Penha", "Vila Matilde"]}

{"Perus": ["Anhanguera", "Perus"]}

{"Pinheiros": ["Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista",
"Pinheiros"]}

{"Pirituba": ["Jaraguá", "Pirituba", "São Domingos"]}

{"Santana/Tucuruvi": ["Mandaqui", "Santana", "Tucuruvi"]}

{"Santo Amaro": ["Campo Belo", "Campo Grande", "Santo Amaro"]}

{"São Mateus": ["Iguatemi", "São Mateus", "São Rafael"]}

{"São Miguel": ["Jardim Helena", "São Miguel", "Vila Jacuí"]}

{"Sé": ["Bela Vista", "Bom Retiro", "Cambuci", "Consolação",
"Liberdade", "República", "Santa Cecília", "Sé"]}

{"Vila Maria/Vila Guilherme": ["Vila Guilherme", "Vila Maria", "Vila Medeiros"]}

{"Vila Mariana": ["Moema", "Saúde", "Vila Mariana"]}

{"Vila Prudente/Sapopemba": ["São Lucas", "Sapopemba", "Vila Prudente"]}



Mais detalhes sobre a lista de discussão okfn-br