[okfn-br] Pitaco - Projeto de Mestrado
Heloisa Pait
heloisa em okfn.org.br
Segunda Junho 15 12:25:52 UTC 2015
Estou indo pra São Carlos hoje e fico lá até quarta-feira, caso v. queira
conversar pessoalmente.
(para comunicaçao mais rápida, pode me escrever em heloisa.pait em gmail.com)
2015-06-15 6:47 GMT-03:00 Peter Krauss <ppkrauss em gmail.com>:
> Danilo,
>
> Que boa noticia, mais uma tese de dados abertos (!)
>
> A voz da experiência aqui das respostas é unânime: vale a pena reduzir o
> escopo ;-)
>
> Como você mencionou o Diário Livre (interface e tratamento sobre os dados
> de entrada do Diário Oficial do Municipio de SP - DOM-SP), e imagino que
> talvez queira aproveitar algum gancho com o SigaLei,
> fica a sugestão de reduzir o escopo a algo como "apenas contratos".
> Entendo que aqui na OKBr os contratos do DOM-SP são a "bola da vez", tanto
> no lado do governo, através da CGM-SP, como do lado da OKBr, no Gastos
> Abertos (seu trabalho acadêmico vir a ser útil para ambos!).
>
> - - - - -
>
> Aproveito a discussão para relembrar a situação, e que aparentemente
> haverá uma transição:
>
> * "passado do DOM-SP" (incluindo hoje e mais uns meses): é o que o Andres
> lembrou, os dados de entrada são ruins. O grande problema é que o
> tratamento (mix de "estruturação do txt" e *data scraping*) de hoje
> supre algo (chuto) como 80% dos contratos (e adendos, etc.), mas sem os
> restantes 20% as contas não fecham, aí entraria o seu trabalho... Além da
> resolução por re*gular expressions*, que tem sido adotada, tratamentos
> linguísticos como *stemming* e/ou lematização (procure o pessoal do NILC
> ai do ICMC) também ajudam, mas a certeza de solução ninguém vai te dar, e
> depende do texto da prefeitura (seu escopo fixado na forma de corpus). Para
> a estruturação do txt, há toda uma área de pesquisa que podemos chamar de
> "reconhecimento de *templates*", (exemplo aleatório de artigo cientifico
> sobre o tema
> <http://link.springer.com/article/10.1007%2Fs11280-009-0059-3>), que
> ajuda nisso.
>
> * "futuro do DOM-SP": a CGM-SP vai garantir que os dados de entrada sejam
> melhores, mas não sabemos o quanto melhores... Acompanhar todo esse
> processo pode ser academicamente muito rico, e métricas de avaliação do
> trabalho deles poderão ser importante subproduto...
>
> No escopo "futuro"... Novamente aproveito a discussão para lembrar que, do
> ponto de vista acadêmico, outros tópicos desde já contribuiriam para essa
> questão dos contratos,
>
> 0* *avaliação do conceito de "formulários geradores de contratos"*... A
> visão "formulários" tem sido vista como opção para contratos simples e para
> a garantia dos metadados das sinopses oficiais dos contratos.
>
> 1* *identificação transparente dos contratos* ("transparente" no sentido
> de *human-readable*, não-opaca)
> (é justamente nesse tema que o LexML pode se envolver bastante
> <https://en.wikipedia.org/wiki/Lex_(URN)> , e estão buscando
> aprimoramento dos IDs de contratos)
>
> 2* *taxonomia dos contratos e metadados essenciais*: antes de decidir se
> é ou não "formulário", há que se organizar o universo, e definir atributos
> fundamentais (além do ID) dos contratos... Acredito que envolva bastante
> estatística (*clustering*).
>
> 3* *arquitetura e protocolos de comunicação e interoperabilidade*: para
> formalizar a "conversa" entre APIs, aplicações Web, bancos de dados, etc.
> dos contratos... Além da relevância das aplicações que discutimos aqui
> nesta lista, há uma "demanda reprimida" para interoperar com os sistemas da
> gestão governamental, e com os ERPs das empresas fornecedoras.
>
> ... e ainda, talvez não tão imediatos mas igualmente importantes...
>
> 4* *mapeamento XML do conteúdo de um contrato*: complemento e alternativa
> aos formulários, a proposta de adaptar algum padrão (de XML schema) para
> servir de modelo de referência ao texto dos contratos. (novamente pode ser
> algo baseado em LexML)
>
> 5* *ferramentas Web (editores e conversores) de marcação sintática e
> semântica* ... a essência da transformação de um conteúdo, do tipo HTML,
> em "coisa estruturada na forma de contrato", é a marcação... Há uma forte
> tendência hoje em se "saltar" para a contemplar tecnologias mais modernas
> e simples de Web Semântica <http://schema.org/Organization>, sem ficar
> criando dialetos XML intermediários ou mapeamentos RDF complexos e
> não-padronizados...
> PS: para o caso XML tem também o LexEdit
> <http://dadosabertos.senado.gov.br/dataset/c-digos-fontes-do-projeto-lexml/resource/8fc7b71d-337c-4575-ab15-2d5ebc2d4be3>,
> mas não é Web nem semântico, o projeto mostra como é complicado mapear
> regras oficiais de estilo e redação numa interface de edição.
>
>
>
> Em 14 de junho de 2015 23:44, Danilo Oliveira <daniloa.oliveira em gmail.com>
> escreveu:
>
>> Pessoal,
>>
>> Obrigado pelas ideias! Complementando, encontrei o seguinte post:
>> http://data.gov.uk/blog/four-challenges-future-open-data
>>
>> O autor menciona quatro grandes desafios, sendo que no quarto "Improving
>> (infra)structure around Open Data" ele menciona a necessidade de haver um
>> padrão e processos de qualidade para abrir os dados. Ele até linka um
>> documento que descreve uma visão para a infraestrutura nacional de
>> informação
>> <http://data.gov.uk/library/odug-national-information-infrastructure-nii>
>> .
>>
>> Vou debater com o meu orientador sobre essas novas ideias.
>>
>> Thiago, sim estou fazendo mestrado na Usp-São Carlos e o Prof Seiji
>> compartilha a sala com meu orientador, o Jõao Porto! Com certeza, caso
>> pretanda usar ontologias, vou bater um papo com ele.
>>
>> Atenciosamente,
>> Danilo Oiveira
>>
>>
>> 2015-06-14 23:20 GMT-03:00 Thiago Avila <tjtavila em gmail.com>:
>>
>>> Opa Danilo,
>>>
>>> A sugestão de propor um processo de abertura num domínio como a saúde é
>>> bem desafiador. Recortando bem o escopo, daria um belo mestrado e um
>>> doutorado bem encaminhado.
>>>
>>> Se pensar em dialogar com o ICMC/USP, recomendo contato com o Prof.
>>> Seiji Isotani, que é uma das feras em Ontologias e Web Semântica que temos
>>> aqui no Brasil.
>>>
>>> Conte conosco.
>>>
>>> Thiago
>>>
>>>
>>>
>>>
>>> Em domingo, 14 de junho de 2015, Andres MRM <andres em inventati.org>
>>> escreveu:
>>>
>>>>
>>>> Bons pontos, Heloisa. Tinha me esquecido da área de pesquisa... Apesar
>>>> de
>>>> também ser graduado em eng. comp., meu mestrado é em sist. de info., o
>>>> que me
>>>> dá um pouco mais de liberdade para abordar os aspectos sociais do
>>>> processo.
>>>> Não sei se isso será verdade no seu caso, Danilo, em ciências da
>>>> computação.
>>>> De qualquer forma, como a Heloisa coloca, abordar essas questões mais
>>>> humanas
>>>> sem estar em um projeto mais amplo que envolva pessoas das outras áreas
>>>> não é
>>>> nada fácil.
>>>>
>>>> A ideia de fazer na raça é algo que acho interessante também. Quando meu
>>>> mestrado estava indo meio pelo caminho de propor uma metodologia, a
>>>> ideia
>>>> inicial é que ela fosse genérica o bastante para ser usada tanto por um
>>>> órgão
>>>> público como por uma cidadã, ONG etc. Na primeira etapa, para conseguir
>>>> os
>>>> dados, se você é um órgão público faça as articulações e extrações
>>>> necessárias, se você está fora do governo consulte os sites ou faça um
>>>> pedido
>>>> de acesso de informação ou parceria com o órgão responsável.
>>>>
>>>>
>>>> Quoting Heloisa Pait (2015-06-14 22:24:58)
>>>> > Olá Danilo!
>>>> >
>>>> > Acho essa pergunta muito importante, "A minha grande dúvida é, qual é
>>>> a grande
>>>> > dor dos governos na abertura dos dados? Será que de fato é o processo
>>>> de
>>>> > abertura? Será que os governos ficam perdidos na implementação de uma
>>>> política
>>>> > de dados abertos?"
>>>> >
>>>> > Entretanto, acho que é melhor colocá-la entre parênteses, como pano
>>>> de fundo,
>>>> > pois não é sua área. Esse objetivo também é muito interessante, mas
>>>> não é de
>>>> > seu área, "medir os impactos sociais e econômicos da política de Dados
>>>> > Abertos", seria melhor deixar para qdo tiver um projeto maior, com
>>>> colaboração
>>>> > de economistas, sociólogos.
>>>> >
>>>> > Achei essa idéia mais específica, "criar uma metodologia de abertura
>>>> de dados"
>>>> > muito legal! Talvez em pareceria com algum órgão, talvez não (usando
>>>> lei de
>>>> > acesso e mandando ver, mostrando o que é possível fazer de modo
>>>> independente).
>>>> >
>>>> > Estive na reunião do governo do Estado de SP, que está com alguns
>>>> projetos
>>>> > piloto, http://br.okfn.org/2015/04/08/
>>>> > dados-abertos-estado-cidadao-ou-beltrao-2-0, não sei se te interessa.
>>>> Assim de
>>>> > pronto eu acharia mais legal fazer "na raça", com base em dados já
>>>> públicos ou
>>>> > disponibilizados pela Lei de Acesso.
>>>> >
>>>> > Abraço,
>>>> > Heloisa
>>>> >
>>>> > 2015-06-14 21:54 GMT-03:00 Andres MRM <andres em inventati.org>:
>>>> >
>>>> > > Andres,
>>>> > > Pretendo focar o mestrado em aplicações práticas, porém não
>>>> descarto
>>>> > pequenas
>>>> > > contribuições científicas durante o curso.
>>>> >
>>>> > Perguntei sobre a questão prática porque nem sempre você vai
>>>> encontrar uma
>>>> > prefeitura disposta a fazer uma parceria... No meu caso, por
>>>> exemplo, foi
>>>> > no
>>>> > sentido contrário.
>>>> >
>>>> > > Bom, vamos lá. Acho que abri demais! (3 pitacos já me indicaram
>>>> para
>>>> > reduzir o
>>>> > > escopo, Peter, Andres e Thiago).
>>>> >
>>>> > Bom, o ICMC tem doutorado direto... =P
>>>> >
>>>> > > Andres,
>>>> > > Eu gosto do projeto do diário livre, mas como ele poderia ser
>>>> replicado
>>>> > para
>>>> > > outras cidades? Talvez essa lacuna que eu possa preencher.
>>>> >
>>>> > Os scripts para "padronizar" os dados de entrada são bem
>>>> específicos para o
>>>> > caso de São Paulo, e provavelmente teriam que ser refeitos caso a
>>>> caso.
>>>> > Fora isso é para conseguir reaproveitar quase tudo.
>>>> >
>>>> >
>>>> >
>>>> > Quoting Danilo Oliveira (2015-06-14 16:00:21)
>>>> > >
>>>> > > Thiago,
>>>> > > Obrigado pela sugestão, porém não queria que o fim do meu
>>>> mestrado seja
>>>> > uma
>>>> > > solução para um problema técnico, não é o meu perfil. Minha
>>>> vontade é
>>>> > juntar as
>>>> > > soluções técnicas propostas por outros e montar a solução para
>>>> um
>>>> > problema mais
>>>> > > amplo.
>>>> > >
>>>> > > Bom, vamos lá. Acho que abri demais! (3 pitacos já me indicaram
>>>> para
>>>> > reduzir o
>>>> > > escopo, Peter, Andres e Thiago).
>>>> > >
>>>> > > Eu gosto da ideia de trabalhar com processos e metodologias
>>>> suportadas
>>>> > por uma
>>>> > > solução tecnologica.
>>>> > >
>>>> > > Por exemplo, criar uma metodologia de abertura de dados na área
>>>> da saúde
>>>> > > suportada por um framework afim de possibilitar a criação de
>>>> uma política
>>>> > > pública mais eficiente.
>>>> > >
>>>> > > Andres,
>>>> > > Eu gosto do projeto do diário livre, mas como ele poderia ser
>>>> replicado
>>>> > para
>>>> > > outras cidades? Talvez essa lacuna que eu possa preencher.
>>>> > >
>>>> > > Abraços,
>>>> > > Danilo
>>>> > >
>>>> > >
>>>> > >
>>>> > > 2015-06-14 14:50 GMT-03:00 Andres MRM <andres em inventati.org>:
>>>> > >
>>>> > >
>>>> > > Oi, Danilo! Concordo com o Thiago, o que você está propondo
>>>> dá um
>>>> > doutorado
>>>> > > ou
>>>> > > até mais. Sei disso porque meu mestrado foi parar perto do
>>>> que você
>>>> > está
>>>> > > propondo e tivemos que reformulá-lo para conseguir algo
>>>> factível.
>>>> > >
>>>> > > A questão de avaliação do impacto de dados abertos, como o
>>>> Thiago
>>>> > colocou
>>>> > > também, é uma área bem desafiadora e mesmo redes globais de
>>>> pesquisa,
>>>> > como
>>>> > > essa que você achou (Open Data Research network, da qual o
>>>> Colab
>>>> > > participa),
>>>> > > têm dificuldades em fazer essas avaliações com clareza,
>>>> pois é um
>>>> > tema
>>>> > > muito
>>>> > > complexo.
>>>> > >
>>>> > > Sobre suas últimas perguntas, também dão uma longa
>>>> conversa... que
>>>> > podemos
>>>> > > marcar qualquer dia desses. =)
>>>> > >
>>>> > > Há muitos interesses envolvendo dados abertos (políticos,
>>>> sociais,
>>>> > > econômicos,
>>>> > > etc), não havendo única resposta sobre quais dados abrir,
>>>> como, onde,
>>>> > > porque,
>>>> > > etc. Somado a tudo isso ainda há uma desinformação enorme
>>>> sobre o
>>>> > tema, já
>>>> > > que
>>>> > > é muito recente e bastante complexo para quem não é de
>>>> tecnologia. E
>>>> > há
>>>> > > ainda
>>>> > > obstáculos técnicos (digitalizar bases que estão em papel,
>>>> estruturar
>>>> > dados
>>>> > > etc) e culturais (convencer alguém que sempre assinou um
>>>> documento em
>>>> > papel
>>>> > > a
>>>> > > assiná-lo digitalmente).
>>>> > >
>>>> > > Não me lembro agora se essa é a melhor referência sobre o
>>>> tema, mas
>>>> > lembro
>>>> > > que
>>>> > > aborda diversos aspectos envolvidos:
>>>> > > http://assets.finnishinstitute.studiocoucou.com/media/
>>>> > >
>>>> >
>>>> W1siZiIsIjIwMTMvMDEvMzEvMTNfMDNfMTNfNjM1X2JlaW5nXzIwb3Blbl8yMGFib3V0XzIwZGF0YS5wZGYiXV0
>>>> > > /being%2520open%2520about%2520data.pdf?sha=9b1040ca
>>>> > >
>>>> > > Você pretende fazer algo mais teórico ou tentar aplicar na
>>>> prática,
>>>> > > fechando
>>>> > > parceria com uma prefeitura por exemplo?
>>>> > >
>>>> > >
>>>> > > Abraços!
>>>> > >
>>>> > >
>>>> > > Quoting Danilo Oliveira (2015-06-14 12:15:09)
>>>> > > > Complementando...
>>>> > > >
>>>> > > > Eu acabei reelendo o meu e-mail e acredito que ficou muito
>>>> > generalista.
>>>> > > Vou
>>>> > > > tentar ser mais objetivo.
>>>> > > >
>>>> > > > Problema:
>>>> > > > Auxiliar os orgãos públicos no processo de abrir,
>>>> disponibilizar,
>>>> > > monitorar
>>>> > > > dados públicos e por fim medir os impactos sociais e
>>>> econômicos da
>>>> > > política de
>>>> > > > Dados Abertos.
>>>> > > >
>>>> > > > Contribuições:
>>>> > > > Científicas
>>>> > > > Adaptar algum framework para a realidade brasileira.
>>>> > > > Refs:
>>>> > > >
>>>> http://www.opendataresearch.org/sites/default/files/posts/
>>>> > > >
>>>> Researching%20the%20emerging%20impacts%20of%20open%20data.pdf
>>>> > > > http://www.opendataresearch.org/search/node/framework
>>>> > > >
>>>> > > > Práticas
>>>> > > > Criar um software open-source para auxiliar a execução dos
>>>> > processos
>>>> > > descritos
>>>> > > > no frame acima.
>>>> > > >
>>>> > > > A minha grande dúvida é, qual é a grande dor dos governos
>>>> na
>>>> > abertura dos
>>>> > > > dados? Será que de fato é o processo de abertura? Será
>>>> que os
>>>> > governos
>>>> > > ficam
>>>> > > > perdidos na implementação de uma política de dados
>>>> abertos?
>>>> > > >
>>>> > > >
>>>> > > > O que acham?
>>>> > > >
>>>> > > > Abraços,
>>>> > > > Danilo
>>>> > > >
>>>> > > >
>>>> > > > 2015-06-14 11:38 GMT-03:00 Danilo Oliveira <
>>>> > daniloa.oliveira em gmail.com>:
>>>> > > >
>>>> > > > Bom Dia!
>>>> > > >
>>>> > > > Pessoal, para quem não me conhece meu nome é Danilo
>>>> sou
>>>> > engenheiro de
>>>> > > > computação formado pela UFSCar e atualmente estou
>>>> começando um
>>>> > > mestrado na
>>>> > > > USP.
>>>> > > >
>>>> > > > Queria pedir um pitaco de vocês, estou escrevendo o
>>>> resumo da
>>>> > > proposta do
>>>> > > > meu projeto de pesquisa relacionado ao tema Dados
>>>> Abertos!
>>>> > > >
>>>> > > > Estou planejando destrinchar o atual cenário dos
>>>> Dados Abertos
>>>> > no
>>>> > > Brasil
>>>> > > > detalhandos seus principais desafios para um governo
>>>> abertos e
>>>> > a
>>>> > > partir
>>>> > > > disto escrever uma metodologia suportada por um
>>>> framework para
>>>> > > abertura de
>>>> > > > dados.
>>>> > > >
>>>> > > > Este framework ajudaria aos governos brasileiros a
>>>> liberarem os
>>>> > dados
>>>> > > > baseados nos seguintes processos:
>>>> > > > □ Abertura de Dados
>>>> > > > ☆ O que são dados abertos? O que abrir? Como
>>>> abrir?
>>>> > Exemplos de
>>>> > > > Benchmarking.
>>>> > > > □ Manutenção destes dados
>>>> > > > ☆ Como aumentar a qualidade dados abertos?
>>>> > > > □ Análise dos Dados
>>>> > > > ☆ Quais são os dados mais consumidos? Quais são
>>>> outros
>>>> > dados
>>>> > > que
>>>> > > > podem ser liberados e agragar um alto valor?
>>>> > > > □ Mensuração dos ganhos
>>>> > > > ☆ Qual foi o impacto social e financeiro da
>>>> abertura
>>>> > destes
>>>> > > dados?
>>>> > > >
>>>> > > > Seria mais ou menos a mesma proposta de valor
>>>> oferecida pela
>>>> > seguinte
>>>> > > > empresa:
>>>> > > >
>>>> http://www.socrata.com/data-driven-government-framework/
>>>> > > >
>>>> > > >
>>>> > > > O que acham? Obrigado!
>>>> > > >
>>>> > > > Atenciosamente,
>>>> > > > Danilo Oliveira
>>>> > > >
>>>> > > > --
>>>> > > > Danilo Amaral de Oliveira
>>>> > > > Engenheiro de Computação
>>>> > > > whats (11) 95282-3504
>>>> > > >
>>>> > > >
>>>> > > >
>>>> > > >
>>>> > > > --
>>>> > > > Danilo Amaral de Oliveira
>>>> > > > Engenheiro de Computação
>>>> > > > whats (11) 95282-3504
>>>> > > _______________________________________________
>>>> > > okfn-br mailing list
>>>> > > okfn-br em lists.okfn.org
>>>> > > https://lists.okfn.org/mailman/listinfo/okfn-br
>>>> > > Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>> > >
>>>> > >
>>>> > >
>>>> > >
>>>> > > --
>>>> > > Danilo Amaral de Oliveira
>>>> > > Engenheiro de Computação
>>>> > > whats (11) 95282-3504
>>>> > _______________________________________________
>>>> > okfn-br mailing list
>>>> > okfn-br em lists.okfn.org
>>>> > https://lists.okfn.org/mailman/listinfo/okfn-br
>>>> > Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>> >
>>>> >
>>>> _______________________________________________
>>>> okfn-br mailing list
>>>> okfn-br em lists.okfn.org
>>>> https://lists.okfn.org/mailman/listinfo/okfn-br
>>>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>>
>>>
>>>
>>> --
>>> *Thiago* José Tavares *Ávila*
>>> Mestrando em Modelagem Computacional do Conhecimento - Instituto de
>>> Computação - *UFAL*
>>> Msc Student in Knowledge Computational Modeling - Computing Institute -
>>> *UFAL*
>>>
>>> Curriculum Lattes/Academic Profile:
>>> http://lattes.cnpq.br/7744328862480065
>>>
>>> Bacharel em Ciência da Computação/Bachelor in Computer Science - *UFAL*
>>> MBA em Gerência Executiva de Projetos/MBA in Project Management - *FGV*
>>>
>>> Membro do *NEES *- Núcleo de Excelência em Tecnologias Sociais
>>> Member of *NEES *- Center for Excellence in Social Technologies
>>> http://www.nees.com.br
>>>
>>> + 55 82 88061783
>>> http://www.thiagoavila.net
>>>
>>>
>>> _______________________________________________
>>> okfn-br mailing list
>>> okfn-br em lists.okfn.org
>>> https://lists.okfn.org/mailman/listinfo/okfn-br
>>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>
>>>
>>
>>
>> --
>> Danilo Amaral de Oliveira
>> Engenheiro de Computação
>> whats (11) 95282-3504
>>
>> _______________________________________________
>> okfn-br mailing list
>> okfn-br em lists.okfn.org
>> https://lists.okfn.org/mailman/listinfo/okfn-br
>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>
>>
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20150615/25571de5/attachment-0005.html>
Mais detalhes sobre a lista de discussão okfn-br