[okfn-br] Dados da execução orçamentária por subprefeitura de São Paulo
Everton Zanella Alvarenga
tom em okfn.org.br
Quarta Setembro 10 18:30:11 UTC 2014
Em 10 de setembro de 2014 15:06, Andres MRM <andres em inventati.org> escreveu:
> Acho que eu usaria algumas expressões regulares (RE).
>
> O script primeiro baixaria esse HTML (com a lista de todas as Subs):
> http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/subprefeituras/index.php
> Aplicaria então uma RE para extrair os nomes delas. Algo assim:
> "http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/historico/*"
Valeu o passo a passo, Andres. Essa etapa não precisa, já temos as
subprefeituras e bairros estruturados em JSON. [1] (Agradecimento ao
Célio, que fez isso usando RegExp num outro contexto a partir da
Wikipédia ;).
Em 10 de setembro de 2014 15:06, Edgar Zanella Alvarenga <e em vaz.io> escreveu:
>
> Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com parâmetro -layout você possui um arquivo txt que pode ser > trivialmente convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor usá-lo localmente.
Valeu, Edgar. Vou usar o pdftotext.
[1] https://pad.okfn.org/p/gastosabertos-ploa2015
{"Aricanduva/Formosa/Carrão": ["Aricanduva", "Carrão", "Vila Formosa"]}
{"Butantã": ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno",
"Vila Sônia"]}
{"Campo Limpo": ["Campo Limpo", "Capão Redondo", "Vila Andrade"]}
{"Capela do Socorro": ["Cidade Dutra", "Grajaú", "Socorro"]}
{"Casa Verde/Cachoeirinha": ["Cachoeirinha", "Casa Verde", "Limão"]}
{"Cidade Ademar": ["Cidade Ademar", "Pedreira"]}
{"Cidade Tiradentes": ["Cidade Tiradentes"]}
{"Ermelino Matarazzo": ["Ermelino Matarazzo", "Ponte Rasa"]}
{"Freguesia/Brasilândia": ["Brasilândia", "Freguesia do Ó"]}
{"Guaianases": ["Guaianases", "Lajeado"]}
{"Ipiranga": ["Cursino", "Ipiranga", "Sacomã"]}
{"Itaim Paulista": ["Itaim Paulista", "Vila Curuçá"]}
{"Itaquera": ["Cidade Líder", "Itaquera", "José Bonifácio", "Parque do Carmo"]}
{"Jabaquara": ["Jabaquara", "Jaçanã/Tremembé", "Jaçanã", "Tremembé"]}
{"Lapa": ["Barra Funda"]}
{"Jaguara": ["Jaguaré", "Lapa", "Perdizes", "Vila Leopoldina"]}
{"M'Boi Mirim": ["Jardim Ângela", "Jardim São Luís"]}
{"Mooca": ["Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé"]}
{"Parelheiros": ["Marsilac", "Parelheiros"]}
{"Penha": ["Artur Alvim", "Cangaíba", "Penha", "Vila Matilde"]}
{"Perus": ["Anhanguera", "Perus"]}
{"Pinheiros": ["Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista",
"Pinheiros"]}
{"Pirituba": ["Jaraguá", "Pirituba", "São Domingos"]}
{"Santana/Tucuruvi": ["Mandaqui", "Santana", "Tucuruvi"]}
{"Santo Amaro": ["Campo Belo", "Campo Grande", "Santo Amaro"]}
{"São Mateus": ["Iguatemi", "São Mateus", "São Rafael"]}
{"São Miguel": ["Jardim Helena", "São Miguel", "Vila Jacuí"]}
{"Sé": ["Bela Vista", "Bom Retiro", "Cambuci", "Consolação",
"Liberdade", "República", "Santa Cecília", "Sé"]}
{"Vila Maria/Vila Guilherme": ["Vila Guilherme", "Vila Maria", "Vila Medeiros"]}
{"Vila Mariana": ["Moema", "Saúde", "Vila Mariana"]}
{"Vila Prudente/Sapopemba": ["São Lucas", "Sapopemba", "Vila Prudente"]}
Mais detalhes sobre a lista de discussão okfn-br