Reprodutibilidade e questões éticas
Crise de reprodutibilidade em Ciências
psicologia: tentaram reproduzir 100 artigos publicados em 2015 nas 3 melhores revistas
medicina: do artigo da wikipedia
A survey on cancer researchers found that half of them had been
unable to reproduce a published result.[63]
A similar survey by Nature on 1,576 researchers who took a brief
online questionnaire on reproducibility showed that more than 70%
of researchers have tried and failed to reproduce another
scientist's experiments, and more than half have failed to reproduce
their own experiments. [64]
Muitos sabem que não da para reproduzir “tudo” mas quanto é “tudo”?
Há uma diminuição do tamanho do efeito nas replicações (sem fonte)
John Ioannidis é um dos pesquisadores mais conhecidos ligado a essa área (problemático agora dado suas posições sobre COVID)
um livro da National Academy of Science (USA) sobre reprodutibilidade nas ciências. pdf gratuito
p-valor = 0.05 significa que 1 em 20 resultados são não reproduzível
viés de seleção em revistas. Se o resultado da nulo, muito provavelmente o artigo não sera publicado.
suponha que o tamanho de efeito é muito pequeno, e várias pessoas estão fazendo esse experimento em paralelo. Apenas a que por sorte tiver um p-valor<0.05 será publicado. Os outros não.
escolhas (malícia ou incompetência) para baixar o p-value: remoção de dados, múltiplas comparações, subset analysis
validade externa: escolha das amostras/sujeitos
falsificação/falsidade: modificação ou criação de dados falsos. Manipulação de imagens. Uso de técnicas não apropriadas de análise
um paper pode ser “retirado” de uma revista por varias razões https://retractionwatch.com/retraction-watch-database-user-guide/retraction-watch-database-user-guide-appendix-b-reasons/
falha em tornar os dados disponíveis (quando apropriado), copyright violations, falta de aprovação (de autores, de comissão de ética, etc).
plagio de texto (mas não necessariamente de dados)
auto retirado (notaram erros, contaminação, etc)
alguns (poucos?) são falsificação
Minha opinião, baseado nos níveis propostos em Guidelines for Transparency and Openness Promotion (TOP) https://ropensci.github.io/reproducibility-guide/sections/introduction/ e neste artigo
mal uso de aprendizado de maquina pode estar gerando nao reproducibilidade em outras areas https://reproducible.cs.princeton.edu (https://www.nature.com/articles/d41586-022-02035-w>
Reproducibilidade em pesquisa de aprendizado de maquina
o artigo da wikipedia da wikipedia continha este texto que nao mais esta la (por que?)
A 2019 study reporting a systematic analysis of recent
publications applying deep learning or neural methods to recommender
systems, published in top conferences (SIGIR, KDD, WWW, RecSys), has
shown that on average less than 40% of articles are reproducible, with
as high as 75% and as little as 14% depending on the
conferences.
Moreover, all but one of the analysed articles proposed
algorithms that were not competitive against much older and simpler
properly tuned baselines. The article also highlights a number of
potential problems in today's research scholarship and calls for
improved scientific practices in that area.[75] These results follow
previous similar findings dating back to 2011.[76][77]
Provavelmente esse artigo https://arxiv.org/abs/1911.07698
sei de relatos do tipo, “todos sabem que não da para acreditar 100% nos resultados desta área”
isso pode ser a razão da segunda parte do texto acima (não usar os melhores baselines)
Este artigo é importante no assunto (mas um pouco antigo)
Outro artigo mais moderno - 2018
Victoria Stodden parece ser a pesquisadora mais importante nessa área
programas
dependências e bibliotecas
ambiente computacional: Docker, VM, etc
ambiente de hardware(?)
existe o termo Repeatability que é mais forte que reprobucibility
e também:
dados
descrição e script para a manipulação dos dados (remoção, transformação, etc)
meta-dados
A FAPESP agora exige um plano de disponibilidade de dados para todos os projetos de pesquisa (acho que inclusive bolsa de mestrado e doutorado). https://fapesp.br/gestaodedados
vem da área de medicina.
princípios que regem o comportamento em relação a sujeitos de experimentos, e os direitos desses sujeitos.
existe uma combinação de questões éticas com proteção legal que confunde as coisas.
Princípios:
sujeito pode escolher participar ou não (mas não pode escolher se é experimental ou controle)
sujeito tem direito de saber os riscos de participar do experimento
não há punições em não participar (medicina)
sujeito pode sair do experimento quando quiser e sem punições
sujeito pode ter acesso aos resultados finais do experimento(?)
sujeito de ser compensado por custos de participar do experimento (mas não sei sobre pagamento)
sujeito deve receber cuidados apropriados após o experimento (consequências do experimento)
sujeito deve permanecer anonimo ou suficientemente anonimo
Termo de consentimento livre e esclarecido - TCLE.
Ainda mais complicado para pessoas e populações que não podem consentir (crianças, pessoas com debilidade cognitiva, populações indígenas)
Declaração de Helsinki de 2013
reduzir sofrimento dos animais
biopirataria
conhecimento das populações indigenas sobre remédios
Declaração de Taipei 2016 sobre bancos de dados em saúde (para pesquisa)
consentimento para ser incluído e consentimento para uso futuro
“That in case the data and material are made non-identifiable the individual may not be able to know what is done with their data/material and that they will not have the option of withdrawing their consent;”
anonimidade
Comitê de ética em pesquisa (CEP) de cada universidade
Comitê nacional de ética em pesquisa (CONEP)
Plataforma Brasil http://conselho.saude.gov.br/plataforma-brasil-conep?view=default e https://plataformabrasil.saude.gov.br/login.jsf
Submete um projeto ao CEP e registra ele na Plataforma Brasil (acho)
O projeto é aprovado, ou modificações são pedidas.
A aprovação de um CEP é necessária na hora de submeter o artigo para publicação
(ACHO) Na UNICAMP, aprovação do CEP ou uma declaração que ela não é relevante é necessária para defender mestrado ou doutorado
- não sei se TCC esta incluso
Distinguir entre ética em pesquisa de computação e ética na prática profissional da computação por exemplo ACM
Se voce vai criar um conjunto de dados relativo a pessoas (imagens, vídeos, medidas do batimento cardíaco, respostas a perguntas, gravação da voz, etc) acho prudente pedir que as pessoas assinem uma autorização de divulgação dos dados (não sei o termo oficial para isso).
Não sei os termos desta autorização.
todos os autores merecem serem autores
todos os autores concordam com a submissão
não há plagio de texto e figuras
não há submissões paralelas (?)
não há publicações prévias sobre o mesmo experimento (?)
declarar conflitos de interesse
etc
Outros princípios não consensuais de publicação:
resultados nulos são resultados científicos e deveriam ser publicados (isso realmente não é seguido) - impede que pesquisadores sigam linhas não frutíferas e da uma precisão maior na avaliação de um tratamento (meta-análise)
conhecimento cientifico deve ter acesso aberto livre e gratuito - publicações open access
pesquisa com financiamento público deve ter acesso aberto - política de dados da FAPESP mas ainda não há uma politica para publicação open access
…