[Gastosabertos-dev] Comparando informações das planilhas de planejamento 2015
Edgar Zanella Alvarenga
e em vaz.io
Domingo Janeiro 25 01:16:34 UTC 2015
Fiz algumas comparações das duas planilhas de planejamento que
iremos utilizar antes de iniciar o processo de criar os modelos
de dados.
http://nbviewer.ipython.org/github/okfn-brasil/gastos_abertos_dados/blob/master/notebooks/Comparando%20dados%20de%20planejamento.ipynb
Descobri algumas coisas boas:
* O valor total em projetos é consistente nas duas planilhas
* Descobri que coisas que pensávamos não estarem regionalizadas
por subprefeitura, como por exemplo "Construção de CEI", estão
na planilha com quadro detalhado. Sempre achávamos que nessas
planilhas existiam muitas informações que possuiam apenas um
total sem a discriminação de quanto deste total iria pra cada
subprefeitura. Pelo que observei, pelo menos alguns projetos
isso não é verdade. Vejam o notebook acima no exemplo do CEI.
E algumas coisas ruins:
* O número de colunas difere entre as duas planilhas.
* Algumas colunas possuem nomes distintos, por exemplo,
'ProjetoAtividade'
na planilha PLOA467BaseDados.xls é equivalente a coluna 'PA' na
planilha PLOA467BaseDadosQuadroDetalhadoDaAcao.xls.
* A quantidade de detalhamento difere em cada planilha. Algums
Projeto/Atividade's
hora estão mais detalhados em uma planilha, hora estão em outra.
Isso
implica que teremos que pensar melhor em como iremos realizar
a importação dos dados para nossos modelos de dados. Quando pegar as
informações de uma planilha e quando pegar da outra? Sim, eu sei,
pegar
sempre da planilha com mais informações, mas isso deverá ser
definido
de forma algorítmica por projeto/atividade.
Sugiro fortemente que dêem uma boa lida no notebook que passei acima.
E.
Mais detalhes sobre a lista de discussão Gastosabertos-dev