[okfn-br] Dados da execução orçamentária por subprefeitura de São Paulo

Vitor Baptista vitor em vitorbaptista.com
Quarta Setembro 10 18:57:38 UTC 2014


Oi Tom,

Você provavelmente já vai fazer isso mas, paralelamente ao desenvolvimento
do scraper, sugiro pedir os dados pela LAI. Quem sabe, né :)

Abraços,

Em 10 de setembro de 2014 15:37, Andres MRM <andres em inventati.org> escreveu:

>
> On 10-09-14 15:30, Everton Zanella Alvarenga wrote:
>
>> Em 10 de setembro de 2014 15:06, Andres MRM <andres em inventati.org>
>> escreveu:
>>
>>  Acho que eu usaria algumas expressões regulares (RE).
>>>
>>> O script primeiro baixaria esse HTML (com a lista de todas as Subs):
>>> http://www.prefeitura.sp.gov.br/cidade/secretarias/
>>> subprefeituras/subprefeituras/index.php
>>> Aplicaria então uma RE para extrair os nomes delas. Algo assim:
>>> "http://www.prefeitura.sp.gov.br/cidade/secretarias/
>>> subprefeituras/(NOME)/historico/*"
>>>
>>
>> Valeu o passo a passo, Andres. Essa etapa não precisa, já temos as
>> subprefeituras e bairros estruturados em JSON. [1] (Agradecimento ao
>> Célio, que fez isso usando RegExp num outro contexto a partir da
>> Wikipédia ;).
>>
>
> Talvez precise sim, porque os nomes tem que ser idênticos aos que o site
> usa,
> se não os links vão quebrar.
> Por exemplo:
> vila_maria_vila_guilherme
>
>
>  Em 10 de setembro de 2014 15:06, Edgar Zanella Alvarenga <e em vaz.io>
>> escreveu:
>>
>>>
>>> Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext
>>> com parâmetro -layout você possui um arquivo txt que pode ser >
>>> trivialmente convertido para csv. Não precisa do Tabula e mesmo que
>>> precisasse, melhor usá-lo localmente.
>>>
>>
>> Valeu, Edgar. Vou usar o pdftotext.
>>
>>
>> [1] https://pad.okfn.org/p/gastosabertos-ploa2015
>>
>> {"Aricanduva/Formosa/Carrão": ["Aricanduva", "Carrão", "Vila Formosa"]}
>>
>> {"Butantã": ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno",
>> "Vila Sônia"]}
>>
>> {"Campo Limpo": ["Campo Limpo", "Capão Redondo", "Vila Andrade"]}
>>
>> {"Capela do Socorro": ["Cidade Dutra", "Grajaú", "Socorro"]}
>>
>> {"Casa Verde/Cachoeirinha": ["Cachoeirinha", "Casa Verde", "Limão"]}
>>
>> {"Cidade Ademar": ["Cidade Ademar", "Pedreira"]}
>>
>> {"Cidade Tiradentes": ["Cidade Tiradentes"]}
>>
>> {"Ermelino Matarazzo": ["Ermelino Matarazzo", "Ponte Rasa"]}
>>
>> {"Freguesia/Brasilândia": ["Brasilândia", "Freguesia do Ó"]}
>>
>> {"Guaianases": ["Guaianases", "Lajeado"]}
>>
>> {"Ipiranga": ["Cursino", "Ipiranga", "Sacomã"]}
>>
>> {"Itaim Paulista": ["Itaim Paulista", "Vila Curuçá"]}
>>
>> {"Itaquera": ["Cidade Líder", "Itaquera", "José Bonifácio", "Parque do
>> Carmo"]}
>>
>> {"Jabaquara": ["Jabaquara", "Jaçanã/Tremembé", "Jaçanã", "Tremembé"]}
>>
>> {"Lapa": ["Barra Funda"]}
>>
>> {"Jaguara": ["Jaguaré", "Lapa", "Perdizes", "Vila Leopoldina"]}
>>
>> {"M'Boi Mirim": ["Jardim Ângela", "Jardim São Luís"]}
>>
>> {"Mooca": ["Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé"]}
>>
>> {"Parelheiros": ["Marsilac", "Parelheiros"]}
>>
>> {"Penha": ["Artur Alvim", "Cangaíba", "Penha", "Vila Matilde"]}
>>
>> {"Perus": ["Anhanguera", "Perus"]}
>>
>> {"Pinheiros": ["Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista",
>> "Pinheiros"]}
>>
>> {"Pirituba": ["Jaraguá", "Pirituba", "São Domingos"]}
>>
>> {"Santana/Tucuruvi": ["Mandaqui", "Santana", "Tucuruvi"]}
>>
>> {"Santo Amaro": ["Campo Belo", "Campo Grande", "Santo Amaro"]}
>>
>> {"São Mateus": ["Iguatemi", "São Mateus", "São Rafael"]}
>>
>> {"São Miguel": ["Jardim Helena", "São Miguel", "Vila Jacuí"]}
>>
>> {"Sé": ["Bela Vista", "Bom Retiro", "Cambuci", "Consolação",
>> "Liberdade", "República", "Santa Cecília", "Sé"]}
>>
>> {"Vila Maria/Vila Guilherme": ["Vila Guilherme", "Vila Maria", "Vila
>> Medeiros"]}
>>
>> {"Vila Mariana": ["Moema", "Saúde", "Vila Mariana"]}
>>
>> {"Vila Prudente/Sapopemba": ["São Lucas", "Sapopemba", "Vila Prudente"]}
>> _______________________________________________
>> okfn-br mailing list
>> okfn-br em lists.okfn.org
>> https://lists.okfn.org/mailman/listinfo/okfn-br
>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>



-- 

Vítor Baptista

Developer  |  http://vitorbaptista.com | LinkedIn
<http://www.linkedin.com/in/vitorbaptista> | @vitorbaptista
<http://twitter.com/vitorbaptista>

The Open Knowledge Foundation <http://okfn.org>

*Empowering through Open Knowledge*

http://okfn.org/  |  @okfn <http://twitter.com/okfn>  |  OKF on Facebook
<https://www.facebook.com/OKFNetwork>  |  Blog <http://blog.okfn.org/>  |
Newsletter <http://okfn.org/about/newsletter/>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20140910/ecf830d5/attachment-0005.html>


Mais detalhes sobre a lista de discussão okfn-br