[okfn-br] relação entre a abertura de dados e a Reprodutibilidade em Ciências

Peter Krauss ppkrauss em gmail.com
Sábado Setembro 12 11:39:33 UTC 2015


Olá Daniela,

Na minha visão o JATS em OpenAccess  já é uma iniciativa revolucionária de
dados abertos (!).
Claro, sempre há potencial para fazer mais, porém há necessidade de seguir
passo-a-passo a evolução, consolidar as coisas... consolidar a cultura.

O SciELO SPS
<http://docs.scielo.org/projects/scielo-publishing-schema/pt_BR/1.2-branch/> é
como um "JATS ABNT", ou seja, é de fato o padrão brasileiro para registrar
artigos científicos.
 PS: as editoras e o governo (ex. FAPESP) já vem investindo nisso desde
2013.

Comentei do *Material Suplementar* pois ele faz parte desse padrão, e os
recursos oficiais (esquema de "depósito legal
<https://en.wikipedia.org/wiki/Legal_deposit>" do artigo científico), como
o acervo SciELO, permitem o depósito casado do artigo com o seu material
suplementar.
... Este artigo da descoberta das cores do camaleão
<http://dx.doi.org/10.1038/ncomms7368> tem bons exemplos de material
suplementar, e está também disponível no repositório PubMed Central
<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4366488/> (para obter o JATS
ver links FTP
<http://www.ncbi.nlm.nih.gov/pmc/utils/oa/oa.fcgi?id=PMC4366488>)...
Exemplo de revista rica em tabelas e materiais suplementares JATS, tem a PLOS
ONE <http://www.ncbi.nlm.nih.gov/pmc/journals/440/> e a brasileira GMB
<http://www.ncbi.nlm.nih.gov/pmc/journals/1440/>.

O incrível, que chama atenção, é que a cultura das revistas e dos autores é
uma barreira: não existem barreias técnicas atualmente, pelo contrário
(!).  É preciso ensinar a comunidade científica a usar os recursos mais
simples, nem sequer o mais simples vem sendo usado.
  PS: as estatísticas de uso de material suplementar nas revistas são
baixíssimas (inferior a 1% dos artigos com tabelas), e editores brasileiros
insistem em publicar tabelas de dados imensas em PDF ao invés de focar no
conteúdo (ex. tabelas com estatísticas e sumarizações), e exigir que
autores usem o recurso do material suplementar.

Enfim, JATS XML é o que temos de melhor e de mais amplamente usado nos dias
de hoje para "Compartilhar dados científicos"...
É ainda um  "compartilhar" restrito à publicação de artigos científicos
(conteúdo, metadados do conteúdo, e dados suplementares do artigo).

Perceba o quanto isso é importante, e o quanto ainda estamos patinando
na *barreira
cultural*...
Veja o exemplo dos seus slides
<http://www.slideshare.net/DanielaBrauner/apresentacao-forumrnp-2015-daniela-brauner>:
não posso copiar/colar trechos de texto, não posso seguir links, pois estão
no formato imagem... É um conteúdo aberto, mas com apenas uma estrela
<http://5stardata.info/en/>. A aderência a uma "nova cultura" precisa ser
ampla...

 - - -

Já o compartilhamento de dados em bancos de dados eu vejo como uma
evolução, que dependeria um pouco de termos essa cultura mais sólida.
De qualquer forma, como iniciativa, os *bancos de dados compartilhados* correm
em paralelo,
não podem ser confundidos como uma "obrigação do pesquisador"
(ao contrário do JATS que hoje é uma exigência do SciELO, do PubMed Central
e diversos outros repositórios sérios).

Algumas áreas possuem padrões, ferramentas, etc. que permitem o uso de
bancos de dados compartilhados e *big data*: OpenStreetMaps
<http://www.openstreetmap.org/> é um exemplo onde cientistas e pessoas
comuns compartilham dados...
A cada área (física de partículas, genética, análise climática, etc. etc.)
pode ou não haver oportunidade de uso de grandes bancos de dados. A maior
parte ainda não tem seu *big data* padronizado e compartilhado.

Além do *big data*, existem os casos intermediários, entre "material
suplementar" (ex. planilhas em formato CSV) e o banco de dados, que são os
chamados *datasets*, promovidos pela OKFN no projeto *Data Packaged Core
Datasets* <https://github.com/datasets/>.

Esses bancos de dados (dos *datasets* ao *big data*), para terem sucesso,
exigem uma certa democracia para que sejam de fato atrativos, confiáveis,
transparentes.... É o que chamam de *curadorias digitais*.  Além disso o
critério de *veracidade* (inerente à questão da reprodutibilidade
científica) de cada área do conhecimento requer uma certa "intuição
coletiva", que só uma curadoria ampla e igualmente aberta pode assegurar.
No Brasil ainda estão nascendo as curadorias e as bases de dados
compartilhadas... são pouquíssimos os exemplos pois, novamente, há uma
cultura acadêmica arraigada do "meus dados", como você bem lembrou.


(respondendo *inline* os detalhes)

Em 11 de setembro de 2015 11:05, Daniela Brauner <danibrauner em gmail.com>
 escreveu:

> Oi Peter e amigos
>
> Pois então.... As editoras, agências de financiamento e quem sabe até as
> próprias universidades e outros, que obtém resultados de P&D, deveriam ter
> repositórios ou exigir que os dados utilizados em artigos fossem
> compartilhados de forma aberta.
>

tentei expressar acima, fique a vontade para replicas ;-)


> Já existem plataformas que permitem isso como o Dataverse criado em
> Harvard.
>
>
Dei uma olhada mas nunca havia usado... Existem exemplos brasileiros? Qual
a vantagem em relação a uma base especializada, ou em relação aos
repositórios JATS genéricos?


> Mas temos alguns desafios importantes para resolver para garantir o reuso
> a longo prazo desse tipo de dados (IDs persistentes das coleções,
> proveniência etc. Coisas que sabemos como fazer basta colocar em prática).
>

Bem lembrado, e acredito que "identificar" é o primeiro passo para qualquer
iniciativa... Conheço a fundo três exemplos de IDs persistentes,

* *DOI*: de longe o mais difundido, apesar do custo não ser irrisório.

* *ISSN*: difundido apenas para revistas, mas poderia estar acoplado ao DOI
(além de igualmente custoso), é mau usado nesse sentido, tenho um projeto
OKBr para isso, https://github.com/okfn-brasil/ISSN-L-Resolver

* LexML e as *URNs LEX*: o único exemplo 100% brasileiro, sem custo,  e
transparente. Gosto muito dele, ver http://www.lexml.gov.br/     Para
apoiar outros usos tem o projeto OKBr https://github.com/okfn-brasil/getlex



> Existe uma variedade muito grande de formatos, tipos e metadados, que
> dificultam a interoperabilidade mas acredito que as barreiras culturais
> ainda são o maior impedimento... "Os MEUS dados".
>
>
Discuti acima a solução que se consolidou em artigos científicos: *JATS* (e
CSV para materiais suplementares).



> Fiz uma apresentação sobre isso outro dia onde tentei listar os desafios e
> falei sobre uma iniciativa que apoia discussões sobre compartilhamento e
> reuso de dados científicos, chamada RDA.
>
> Checkout:
> http://www.slideshare.net/DanielaBrauner/apresentacao-forumrnp-2015-daniela-brauner Apresentacao
> ForumRNP 2015 - Daniela Brauner
>
>
Parece muito boa (!), tem como nos passar em formato aberto?
;-)




> Abs
> Daniela
>
>



>
> Em 11/09/2015, às 06:14, Peter Krauss <ppkrauss em gmail.com> escreveu:
>
> Um dos pilares do método científico e do "fazer Ciência" é a
> Reprodutibilidade <https://en.wikipedia.org/wiki/Reproducibility>...
>
> Quando falamos de *publicações científicas* abertas (muito da produção
> brasileira está hoje concentrada nos acervos do SciELO
> <https://en.wikipedia.org/wiki/SciELO>),
> ou seja, de OpenAccess <https://en.wikipedia.org/wiki/Open_access>,
> esquecemos da relação que isso tem com o conceito de *reprodutibilidade  *--
> e não só com *transparência* e *direito de acesso ao conhecimento*.
>
> Um bom exemplo de aplicação prática do conceito é a publicação de tabelas
> em artigos.
> A *reprodutibilidade* é o que de fato explica o porquê, quando o
> pesquisador publica seu artigo científico numa revista,
> de *não* ser recomendado publicar *tabelas* em formato imagem (!), e de
> não ser suficiente a revista oferecer apenas o PDF do artigo:
>
> * o ideal é enviar como materal suplementar
> <http://jats.nlm.nih.gov/publishing/tag-library/1.1d3/element/supplementary-material.html>
>  uma tabela CSV <http://www.w3.org/standards/techs/csv#w3c_all> ou
> planilha aberta, (um "conteudo pelo menos 4 estrelas
> <http://5stardata.info/en/>") para que *outros pesquisadores
> possam reproduzir as contas*, reutilizando operacionalmente a  tabela
> publicada.
>
> * o correto, dentro dos padrões atuais, é a tabela estar expressa em
> HTML, com dados linha a linha
> <http://jats.nlm.nih.gov/publishing/tag-library/1.1d3/chapter/tag-tables.html> para
> podermos copiar/colar do acervo online para uma  planilha.
>
> As revistas dos principais acervos, como SciELO e PubMed Central, são
> obrigadas hoje a entregar cada artigo, enquanto obra e documento oficial,
> em ambos formatos, PDF e XML JATS
> <https://en.wikipedia.org/wiki/Journal_Article_Tag_Suite> -- é o XML que
> dá origem à indexação, ao HTML, EPUB, etc. automaticamente.
>
> - - -
> O link abaixo veio de uma dica da Carol aqui na Lista (desculpem perdi o
> *thread* de onde cliquei o bookmark essa semana),
> muito bom, sobre esse assunto de "reprodutibilidade dos resultados do
> pesquisador",
>
>
> http://www.ibtimes.com/scrutinizing-scientific-method-researchers-massive-open-access-study-fail-replicate-2071483
>
> *A publicação científica* se torna de fato *conhecimento* depois dos
> pares terem *reproduzido*, que na prática é uma auditoria ;-)
> não é muito diferente das contas públicas do governo.
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>
>
> _______________________________________________
> okfn-br mailing list
> okfn-br em lists.okfn.org
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.okfn.org/pipermail/okfn-br/attachments/20150912/51113f55/attachment-0005.html>


Mais detalhes sobre a lista de discussão okfn-br