[okfn-br] Pitaco - Projeto de Mestrado
Peter Krauss
ppkrauss em gmail.com
Segunda Junho 15 09:47:06 UTC 2015
Danilo,
Que boa noticia, mais uma tese de dados abertos (!)
A voz da experiência aqui das respostas é unânime: vale a pena reduzir o
escopo ;-)
Como você mencionou o Diário Livre (interface e tratamento sobre os dados
de entrada do Diário Oficial do Municipio de SP - DOM-SP), e imagino que
talvez queira aproveitar algum gancho com o SigaLei,
fica a sugestão de reduzir o escopo a algo como "apenas contratos".
Entendo que aqui na OKBr os contratos do DOM-SP são a "bola da vez", tanto
no lado do governo, através da CGM-SP, como do lado da OKBr, no Gastos
Abertos (seu trabalho acadêmico vir a ser útil para ambos!).
- - - - -
Aproveito a discussão para relembrar a situação, e que aparentemente haverá
uma transição:
* "passado do DOM-SP" (incluindo hoje e mais uns meses): é o que o Andres
lembrou, os dados de entrada são ruins. O grande problema é que o
tratamento (mix de "estruturação do txt" e *data scraping*) de hoje supre
algo (chuto) como 80% dos contratos (e adendos, etc.), mas sem os restantes
20% as contas não fecham, aí entraria o seu trabalho... Além da resolução
por re*gular expressions*, que tem sido adotada, tratamentos linguísticos
como *stemming* e/ou lematização (procure o pessoal do NILC ai do ICMC)
também ajudam, mas a certeza de solução ninguém vai te dar, e depende do
texto da prefeitura (seu escopo fixado na forma de corpus). Para a
estruturação do txt, há toda uma área de pesquisa que podemos chamar de
"reconhecimento de *templates*", (exemplo aleatório de artigo cientifico
sobre o tema <http://link.springer.com/article/10.1007%2Fs11280-009-0059-3>),
que ajuda nisso.
* "futuro do DOM-SP": a CGM-SP vai garantir que os dados de entrada sejam
melhores, mas não sabemos o quanto melhores... Acompanhar todo esse
processo pode ser academicamente muito rico, e métricas de avaliação do
trabalho deles poderão ser importante subproduto...
No escopo "futuro"... Novamente aproveito a discussão para lembrar que, do
ponto de vista acadêmico, outros tópicos desde já contribuiriam para essa
questão dos contratos,
0* *avaliação do conceito de "formulários geradores de contratos"*... A
visão "formulários" tem sido vista como opção para contratos simples e para
a garantia dos metadados das sinopses oficiais dos contratos.
1* *identificação transparente dos contratos* ("transparente" no sentido de
*human-readable*, não-opaca)
(é justamente nesse tema que o LexML pode se envolver bastante
<https://en.wikipedia.org/wiki/Lex_(URN)> , e estão buscando aprimoramento
dos IDs de contratos)
2* *taxonomia dos contratos e metadados essenciais*: antes de decidir se é
ou não "formulário", há que se organizar o universo, e definir atributos
fundamentais (além do ID) dos contratos... Acredito que envolva bastante
estatística (*clustering*).
3* *arquitetura e protocolos de comunicação e interoperabilidade*: para
formalizar a "conversa" entre APIs, aplicações Web, bancos de dados, etc.
dos contratos... Além da relevância das aplicações que discutimos aqui
nesta lista, há uma "demanda reprimida" para interoperar com os sistemas da
gestão governamental, e com os ERPs das empresas fornecedoras.
... e ainda, talvez não tão imediatos mas igualmente importantes...
4* *mapeamento XML do conteúdo de um contrato*: complemento e alternativa
aos formulários, a proposta de adaptar algum padrão (de XML schema) para
servir de modelo de referência ao texto dos contratos. (novamente pode ser
algo baseado em LexML)
5* *ferramentas Web (editores e conversores) de marcação sintática e
semântica* ... a essência da transformação de um conteúdo, do tipo HTML,
em "coisa estruturada na forma de contrato", é a marcação... Há uma forte
tendência hoje em se "saltar" para a contemplar tecnologias mais modernas e
simples de Web Semântica <http://schema.org/Organization>, sem ficar
criando dialetos XML intermediários ou mapeamentos RDF complexos e
não-padronizados...
PS: para o caso XML tem também o LexEdit
<http://dadosabertos.senado.gov.br/dataset/c-digos-fontes-do-projeto-lexml/resource/8fc7b71d-337c-4575-ab15-2d5ebc2d4be3>,
mas não é Web nem semântico, o projeto mostra como é complicado mapear
regras oficiais de estilo e redação numa interface de edição.
Em 14 de junho de 2015 23:44, Danilo Oliveira <daniloa.oliveira em gmail.com>
escreveu:
> Pessoal,
>
> Obrigado pelas ideias! Complementando, encontrei o seguinte post:
> http://data.gov.uk/blog/four-challenges-future-open-data
>
> O autor menciona quatro grandes desafios, sendo que no quarto "Improving
> (infra)structure around Open Data" ele menciona a necessidade de haver um
> padrão e processos de qualidade para abrir os dados. Ele até linka um
> documento que descreve uma visão para a infraestrutura nacional de
> informação
> <http://data.gov.uk/library/odug-national-information-infrastructure-nii>.
>
> Vou debater com o meu orientador sobre essas novas ideias.
>
> Thiago, sim estou fazendo mestrado na Usp-São Carlos e o Prof Seiji
> compartilha a sala com meu orientador, o Jõao Porto! Com certeza, caso
> pretanda usar ontologias, vou bater um papo com ele.
>
> Atenciosamente,
> Danilo Oiveira
>
>
> 2015-06-14 23:20 GMT-03:00 Thiago Avila <tjtavila em gmail.com>:
>
>> Opa Danilo,
>>
>> A sugestão de propor um processo de abertura num domínio como a saúde é
>> bem desafiador. Recortando bem o escopo, daria um belo mestrado e um
>> doutorado bem encaminhado.
>>
>> Se pensar em dialogar com o ICMC/USP, recomendo contato com o Prof. Seiji
>> Isotani, que é uma das feras em Ontologias e Web Semântica que temos aqui
>> no Brasil.
>>
>> Conte conosco.
>>
>> Thiago
>>
>>
>>
>>
>> Em domingo, 14 de junho de 2015, Andres MRM <andres em inventati.org>
>> escreveu:
>>
>>>
>>> Bons pontos, Heloisa. Tinha me esquecido da área de pesquisa... Apesar de
>>> também ser graduado em eng. comp., meu mestrado é em sist. de info., o
>>> que me
>>> dá um pouco mais de liberdade para abordar os aspectos sociais do
>>> processo.
>>> Não sei se isso será verdade no seu caso, Danilo, em ciências da
>>> computação.
>>> De qualquer forma, como a Heloisa coloca, abordar essas questões mais
>>> humanas
>>> sem estar em um projeto mais amplo que envolva pessoas das outras áreas
>>> não é
>>> nada fácil.
>>>
>>> A ideia de fazer na raça é algo que acho interessante também. Quando meu
>>> mestrado estava indo meio pelo caminho de propor uma metodologia, a ideia
>>> inicial é que ela fosse genérica o bastante para ser usada tanto por um
>>> órgão
>>> público como por uma cidadã, ONG etc. Na primeira etapa, para conseguir
>>> os
>>> dados, se você é um órgão público faça as articulações e extrações
>>> necessárias, se você está fora do governo consulte os sites ou faça um
>>> pedido
>>> de acesso de informação ou parceria com o órgão responsável.
>>>
>>>
>>> Quoting Heloisa Pait (2015-06-14 22:24:58)
>>> > Olá Danilo!
>>> >
>>> > Acho essa pergunta muito importante, "A minha grande dúvida é, qual é
>>> a grande
>>> > dor dos governos na abertura dos dados? Será que de fato é o processo
>>> de
>>> > abertura? Será que os governos ficam perdidos na implementação de uma
>>> política
>>> > de dados abertos?"
>>> >
>>> > Entretanto, acho que é melhor colocá-la entre parênteses, como pano de
>>> fundo,
>>> > pois não é sua área. Esse objetivo também é muito interessante, mas
>>> não é de
>>> > seu área, "medir os impactos sociais e econômicos da política de Dados
>>> > Abertos", seria melhor deixar para qdo tiver um projeto maior, com
>>> colaboração
>>> > de economistas, sociólogos.
>>> >
>>> > Achei essa idéia mais específica, "criar uma metodologia de abertura
>>> de dados"
>>> > muito legal! Talvez em pareceria com algum órgão, talvez não (usando
>>> lei de
>>> > acesso e mandando ver, mostrando o que é possível fazer de modo
>>> independente).
>>> >
>>> > Estive na reunião do governo do Estado de SP, que está com alguns
>>> projetos
>>> > piloto, http://br.okfn.org/2015/04/08/
>>> > dados-abertos-estado-cidadao-ou-beltrao-2-0, não sei se te interessa.
>>> Assim de
>>> > pronto eu acharia mais legal fazer "na raça", com base em dados já
>>> públicos ou
>>> > disponibilizados pela Lei de Acesso.
>>> >
>>> > Abraço,
>>> > Heloisa
>>> >
>>> > 2015-06-14 21:54 GMT-03:00 Andres MRM <andres em inventati.org>:
>>> >
>>> > > Andres,
>>> > > Pretendo focar o mestrado em aplicações práticas, porém não
>>> descarto
>>> > pequenas
>>> > > contribuições científicas durante o curso.
>>> >
>>> > Perguntei sobre a questão prática porque nem sempre você vai
>>> encontrar uma
>>> > prefeitura disposta a fazer uma parceria... No meu caso, por
>>> exemplo, foi
>>> > no
>>> > sentido contrário.
>>> >
>>> > > Bom, vamos lá. Acho que abri demais! (3 pitacos já me indicaram
>>> para
>>> > reduzir o
>>> > > escopo, Peter, Andres e Thiago).
>>> >
>>> > Bom, o ICMC tem doutorado direto... =P
>>> >
>>> > > Andres,
>>> > > Eu gosto do projeto do diário livre, mas como ele poderia ser
>>> replicado
>>> > para
>>> > > outras cidades? Talvez essa lacuna que eu possa preencher.
>>> >
>>> > Os scripts para "padronizar" os dados de entrada são bem
>>> específicos para o
>>> > caso de São Paulo, e provavelmente teriam que ser refeitos caso a
>>> caso.
>>> > Fora isso é para conseguir reaproveitar quase tudo.
>>> >
>>> >
>>> >
>>> > Quoting Danilo Oliveira (2015-06-14 16:00:21)
>>> > >
>>> > > Thiago,
>>> > > Obrigado pela sugestão, porém não queria que o fim do meu
>>> mestrado seja
>>> > uma
>>> > > solução para um problema técnico, não é o meu perfil. Minha
>>> vontade é
>>> > juntar as
>>> > > soluções técnicas propostas por outros e montar a solução para um
>>> > problema mais
>>> > > amplo.
>>> > >
>>> > > Bom, vamos lá. Acho que abri demais! (3 pitacos já me indicaram
>>> para
>>> > reduzir o
>>> > > escopo, Peter, Andres e Thiago).
>>> > >
>>> > > Eu gosto da ideia de trabalhar com processos e metodologias
>>> suportadas
>>> > por uma
>>> > > solução tecnologica.
>>> > >
>>> > > Por exemplo, criar uma metodologia de abertura de dados na área
>>> da saúde
>>> > > suportada por um framework afim de possibilitar a criação de uma
>>> política
>>> > > pública mais eficiente.
>>> > >
>>> > > Andres,
>>> > > Eu gosto do projeto do diário livre, mas como ele poderia ser
>>> replicado
>>> > para
>>> > > outras cidades? Talvez essa lacuna que eu possa preencher.
>>> > >
>>> > > Abraços,
>>> > > Danilo
>>> > >
>>> > >
>>> > >
>>> > > 2015-06-14 14:50 GMT-03:00 Andres MRM <andres em inventati.org>:
>>> > >
>>> > >
>>> > > Oi, Danilo! Concordo com o Thiago, o que você está propondo
>>> dá um
>>> > doutorado
>>> > > ou
>>> > > até mais. Sei disso porque meu mestrado foi parar perto do
>>> que você
>>> > está
>>> > > propondo e tivemos que reformulá-lo para conseguir algo
>>> factível.
>>> > >
>>> > > A questão de avaliação do impacto de dados abertos, como o
>>> Thiago
>>> > colocou
>>> > > também, é uma área bem desafiadora e mesmo redes globais de
>>> pesquisa,
>>> > como
>>> > > essa que você achou (Open Data Research network, da qual o
>>> Colab
>>> > > participa),
>>> > > têm dificuldades em fazer essas avaliações com clareza, pois
>>> é um
>>> > tema
>>> > > muito
>>> > > complexo.
>>> > >
>>> > > Sobre suas últimas perguntas, também dão uma longa
>>> conversa... que
>>> > podemos
>>> > > marcar qualquer dia desses. =)
>>> > >
>>> > > Há muitos interesses envolvendo dados abertos (políticos,
>>> sociais,
>>> > > econômicos,
>>> > > etc), não havendo única resposta sobre quais dados abrir,
>>> como, onde,
>>> > > porque,
>>> > > etc. Somado a tudo isso ainda há uma desinformação enorme
>>> sobre o
>>> > tema, já
>>> > > que
>>> > > é muito recente e bastante complexo para quem não é de
>>> tecnologia. E
>>> > há
>>> > > ainda
>>> > > obstáculos técnicos (digitalizar bases que estão em papel,
>>> estruturar
>>> > dados
>>> > > etc) e culturais (convencer alguém que sempre assinou um
>>> documento em
>>> > papel
>>> > > a
>>> > > assiná-lo digitalmente).
>>> > >
>>> > > Não me lembro agora se essa é a melhor referência sobre o
>>> tema, mas
>>> > lembro
>>> > > que
>>> > > aborda diversos aspectos envolvidos:
>>> > > http://assets.finnishinstitute.studiocoucou.com/media/
>>> > >
>>> >
>>> W1siZiIsIjIwMTMvMDEvMzEvMTNfMDNfMTNfNjM1X2JlaW5nXzIwb3Blbl8yMGFib3V0XzIwZGF0YS5wZGYiXV0
>>> > > /being%2520open%2520about%2520data.pdf?sha=9b1040ca
>>> > >
>>> > > Você pretende fazer algo mais teórico ou tentar aplicar na
>>> prática,
>>> > > fechando
>>> > > parceria com uma prefeitura por exemplo?
>>> > >
>>> > >
>>> > > Abraços!
>>> > >
>>> > >
>>> > > Quoting Danilo Oliveira (2015-06-14 12:15:09)
>>> > > > Complementando...
>>> > > >
>>> > > > Eu acabei reelendo o meu e-mail e acredito que ficou muito
>>> > generalista.
>>> > > Vou
>>> > > > tentar ser mais objetivo.
>>> > > >
>>> > > > Problema:
>>> > > > Auxiliar os orgãos públicos no processo de abrir,
>>> disponibilizar,
>>> > > monitorar
>>> > > > dados públicos e por fim medir os impactos sociais e
>>> econômicos da
>>> > > política de
>>> > > > Dados Abertos.
>>> > > >
>>> > > > Contribuições:
>>> > > > Científicas
>>> > > > Adaptar algum framework para a realidade brasileira.
>>> > > > Refs:
>>> > > > http://www.opendataresearch.org/sites/default/files/posts/
>>> > > >
>>> Researching%20the%20emerging%20impacts%20of%20open%20data.pdf
>>> > > > http://www.opendataresearch.org/search/node/framework
>>> > > >
>>> > > > Práticas
>>> > > > Criar um software open-source para auxiliar a execução dos
>>> > processos
>>> > > descritos
>>> > > > no frame acima.
>>> > > >
>>> > > > A minha grande dúvida é, qual é a grande dor dos governos
>>> na
>>> > abertura dos
>>> > > > dados? Será que de fato é o processo de abertura? Será que
>>> os
>>> > governos
>>> > > ficam
>>> > > > perdidos na implementação de uma política de dados
>>> abertos?
>>> > > >
>>> > > >
>>> > > > O que acham?
>>> > > >
>>> > > > Abraços,
>>> > > > Danilo
>>> > > >
>>> > > >
>>> > > > 2015-06-14 11:38 GMT-03:00 Danilo Oliveira <
>>> > daniloa.oliveira em gmail.com>:
>>> > > >
>>> > > > Bom Dia!
>>> > > >
>>> > > > Pessoal, para quem não me conhece meu nome é Danilo sou
>>> > engenheiro de
>>> > > > computação formado pela UFSCar e atualmente estou
>>> começando um
>>> > > mestrado na
>>> > > > USP.
>>> > > >
>>> > > > Queria pedir um pitaco de vocês, estou escrevendo o
>>> resumo da
>>> > > proposta do
>>> > > > meu projeto de pesquisa relacionado ao tema Dados
>>> Abertos!
>>> > > >
>>> > > > Estou planejando destrinchar o atual cenário dos Dados
>>> Abertos
>>> > no
>>> > > Brasil
>>> > > > detalhandos seus principais desafios para um governo
>>> abertos e
>>> > a
>>> > > partir
>>> > > > disto escrever uma metodologia suportada por um
>>> framework para
>>> > > abertura de
>>> > > > dados.
>>> > > >
>>> > > > Este framework ajudaria aos governos brasileiros a
>>> liberarem os
>>> > dados
>>> > > > baseados nos seguintes processos:
>>> > > > □ Abertura de Dados
>>> > > > ☆ O que são dados abertos? O que abrir? Como
>>> abrir?
>>> > Exemplos de
>>> > > > Benchmarking.
>>> > > > □ Manutenção destes dados
>>> > > > ☆ Como aumentar a qualidade dados abertos?
>>> > > > □ Análise dos Dados
>>> > > > ☆ Quais são os dados mais consumidos? Quais são
>>> outros
>>> > dados
>>> > > que
>>> > > > podem ser liberados e agragar um alto valor?
>>> > > > □ Mensuração dos ganhos
>>> > > > ☆ Qual foi o impacto social e financeiro da
>>> abertura
>>> > destes
>>> > > dados?
>>> > > >
>>> > > > Seria mais ou menos a mesma proposta de valor
>>> oferecida pela
>>> > seguinte
>>> > > > empresa:
>>> > > >
>>> http://www.socrata.com/data-driven-government-framework/
>>> > > >
>>> > > >
>>> > > > O que acham? Obrigado!
>>> > > >
>>> > > > Atenciosamente,
>>> > > > Danilo Oliveira
>>> > > >
>>> > > > --
>>> > > > Danilo Amaral de Oliveira
>>> > > > Engenheiro de Computação
>>> > > > whats (11) 95282-3504
>>> > > >
>>> > > >
>>> > > >
>>> > > >
>>> > > > --
>>> > > > Danilo Amaral de Oliveira
>>> > > > Engenheiro de Computação
>>> > > > whats (11) 95282-3504
>>> > > _______________________________________________
>>> > > okfn-br mailing list
>>> > > okfn-br em lists.okfn.org
>>> > > https://lists.okfn.org/mailman/listinfo/okfn-br
>>> > > Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>> > >
>>> > >
>>> > >
>>> > >
>>> > > --
>>> > > Danilo Amaral de Oliveira
>>> > > Engenheiro de Computação
>>> > > whats (11) 95282-3504
>>> > _______________________________________________
>>> > okfn-br mailing list
>>> > okfn-br em lists.okfn.org
>>> > https://lists.okfn.org/mailman/listinfo/okfn-br
>>> > Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>> >
>>> >
>>> _______________________________________________
>>> okfn-br mailing list
>>> okfn-br em lists.okfn.org
>>> https://lists.okfn.org/mailman/listinfo/okfn-br
>>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>
>>
>>
>> --
>> *Thiago* José Tavares *Ávila*
>> Mestrando em Modelagem Computacional do Conhecimento - Instituto de
>> Computação - *UFAL*
>> Msc Student in Knowledge Computational Modeling - Computing Institute -
>> *UFAL*
>>
>> Curriculum Lattes/Academic Profile:
>> http://lattes.cnpq.br/7744328862480065
>>
>> Bacharel em Ciência da Computação/Bachelor in Computer Science - *UFAL*
>> MBA em Gerência Executiva de Projetos/MBA in Project Management - *FGV*
>>
>> Membro do *NEES *- Núcleo de Excelência em Tecnologias Sociais
>> Member of *NEES *- Center for Excellence in Social Technologies
>> http://www.nees.com.br
>>
>> + 55 82 88061783
>> http://www.thiagoavila.net
>>
>>
>> _______________________________________________
>> okfn-br mailing list
>> okfn-br em lists.okfn.org
>> https://lists.okfn.org/mailman/listinfo/okfn-br
>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>
>>
>
>
> --
> Danilo Amaral de Oliveira
> Engenheiro de Computação
> whats (11) 95282-3504
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20150615/53470375/attachment-0005.html>
Mais detalhes sobre a lista de discussão okfn-br