[okfn-br] Dados da execução orçamentária por subprefeitura de São Paulo
Andres MRM
andres em inventati.org
Quarta Setembro 10 18:37:54 UTC 2014
On 10-09-14 15:30, Everton Zanella Alvarenga wrote:
>Em 10 de setembro de 2014 15:06, Andres MRM <andres em inventati.org> escreveu:
>
>> Acho que eu usaria algumas expressões regulares (RE).
>>
>> O script primeiro baixaria esse HTML (com a lista de todas as Subs):
>> http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/subprefeituras/index.php
>> Aplicaria então uma RE para extrair os nomes delas. Algo assim:
>> "http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/historico/*"
>
>Valeu o passo a passo, Andres. Essa etapa não precisa, já temos as
>subprefeituras e bairros estruturados em JSON. [1] (Agradecimento ao
>Célio, que fez isso usando RegExp num outro contexto a partir da
>Wikipédia ;).
Talvez precise sim, porque os nomes tem que ser idênticos aos que o site usa,
se não os links vão quebrar.
Por exemplo:
vila_maria_vila_guilherme
>Em 10 de setembro de 2014 15:06, Edgar Zanella Alvarenga <e em vaz.io> escreveu:
>>
>> Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com parâmetro -layout você possui um arquivo txt que pode ser > trivialmente convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor usá-lo localmente.
>
>Valeu, Edgar. Vou usar o pdftotext.
>
>
>[1] https://pad.okfn.org/p/gastosabertos-ploa2015
>
>{"Aricanduva/Formosa/Carrão": ["Aricanduva", "Carrão", "Vila Formosa"]}
>
>{"Butantã": ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno",
>"Vila Sônia"]}
>
>{"Campo Limpo": ["Campo Limpo", "Capão Redondo", "Vila Andrade"]}
>
>{"Capela do Socorro": ["Cidade Dutra", "Grajaú", "Socorro"]}
>
>{"Casa Verde/Cachoeirinha": ["Cachoeirinha", "Casa Verde", "Limão"]}
>
>{"Cidade Ademar": ["Cidade Ademar", "Pedreira"]}
>
>{"Cidade Tiradentes": ["Cidade Tiradentes"]}
>
>{"Ermelino Matarazzo": ["Ermelino Matarazzo", "Ponte Rasa"]}
>
>{"Freguesia/Brasilândia": ["Brasilândia", "Freguesia do Ó"]}
>
>{"Guaianases": ["Guaianases", "Lajeado"]}
>
>{"Ipiranga": ["Cursino", "Ipiranga", "Sacomã"]}
>
>{"Itaim Paulista": ["Itaim Paulista", "Vila Curuçá"]}
>
>{"Itaquera": ["Cidade Líder", "Itaquera", "José Bonifácio", "Parque do Carmo"]}
>
>{"Jabaquara": ["Jabaquara", "Jaçanã/Tremembé", "Jaçanã", "Tremembé"]}
>
>{"Lapa": ["Barra Funda"]}
>
>{"Jaguara": ["Jaguaré", "Lapa", "Perdizes", "Vila Leopoldina"]}
>
>{"M'Boi Mirim": ["Jardim Ângela", "Jardim São Luís"]}
>
>{"Mooca": ["Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé"]}
>
>{"Parelheiros": ["Marsilac", "Parelheiros"]}
>
>{"Penha": ["Artur Alvim", "Cangaíba", "Penha", "Vila Matilde"]}
>
>{"Perus": ["Anhanguera", "Perus"]}
>
>{"Pinheiros": ["Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista",
>"Pinheiros"]}
>
>{"Pirituba": ["Jaraguá", "Pirituba", "São Domingos"]}
>
>{"Santana/Tucuruvi": ["Mandaqui", "Santana", "Tucuruvi"]}
>
>{"Santo Amaro": ["Campo Belo", "Campo Grande", "Santo Amaro"]}
>
>{"São Mateus": ["Iguatemi", "São Mateus", "São Rafael"]}
>
>{"São Miguel": ["Jardim Helena", "São Miguel", "Vila Jacuí"]}
>
>{"Sé": ["Bela Vista", "Bom Retiro", "Cambuci", "Consolação",
>"Liberdade", "República", "Santa Cecília", "Sé"]}
>
>{"Vila Maria/Vila Guilherme": ["Vila Guilherme", "Vila Maria", "Vila Medeiros"]}
>
>{"Vila Mariana": ["Moema", "Saúde", "Vila Mariana"]}
>
>{"Vila Prudente/Sapopemba": ["São Lucas", "Sapopemba", "Vila Prudente"]}
>_______________________________________________
>okfn-br mailing list
>okfn-br em lists.okfn.org
>https://lists.okfn.org/mailman/listinfo/okfn-br
>Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
Mais detalhes sobre a lista de discussão okfn-br