Experimentos
Baseado no capitulo 24 (parte V) deste livro
Experimentos é a aplicação de uma intervenção a vários sujeitos em ambientes moderadamente controlados.
exemplos clássicos:
sujeito são pessoas e a intervenção é um remédio/vacina
sujeito são usuários e a intervenção é uma interface para fazer uma tarefa
sujeito são alunos e a intervenção é uma nova técnica educacional para ensinar frações
sujeito são grupos de pessoas e a intervenção é um software colaborativo (git, google docs)
sujeito são empresas e a intervenção é um software organizacional (ticket management)
sujeito são cidades e a intervenção é uma politica pública (multa para lixo jogado em terreno baldio)
Notação
X é a intervenção
O á a observação/medição
O desenho
O1 X O2
Por exemplo:
Ou
mesmo que O2 seja melhor que O1, isso pode não ser devido ao sistema/intervenção (X) mas sim a:
os usuários aprenderam a fazer a tarefa A no primeiro teste O1 e portanto fazem menos erros. Essa é a ameaça de testagem (numero de erros usando o sistema)
ou talvez os usuários fizeram um curso sobre a tarefa A entre O1 e O2: história
ou talvez os testes forma feitos com um ano de diferença e as pessoa se tornam mais proficientes em usar um sistema: maturação
suponha que em O2 a tarefa não é A mas B. Talvez a tarefa B seja mais fácil que A: instrumentação
Sempre que voce tiver teste antes e depois, voce tem que se preocupar com testagem, instrumentação historia e maturação.
Mas esses são problemas potenciais.
se o experimento é feito num laboratório, num só dia, não há historia, mas talvez haja maturação negativa - os usuários ficam cansados no fim do dia e fazem mais erros.
se o experimento é feito em um ano, testagem pode não ser um problema (ele se esqueceram de como fazer a tarefa A) mas historia e maturação passam a ser mais preocupantes.
use um teste pareado (antes, depois) para verificar que o O2 é estatisticamente sigificantemente diferente e melhor que O1. Use as ideias de teste que equivalência ou teste Bayesiano com ROPE para mostrar que a diferença é real/importante.
O desenho
X O - experimental
O - controle
Se o O do grupo experimental é melhor que o do controle, podemos dizer que foi devido ao X?
verifique que não há testagem, maturação, historia, ou instrumentação!!
seleção: pode ser que o grupo experimental já era melhor que o controle. !!!
Vou discutir os mecanismos de atribuição dos sujeitos para os 2 grupos mais abaixo
Estatística: testes não pareados entre O do experimento e O do controle.
O1 X O2
O1 O2
seleção pode ser um problema mas se voce calcular O2-O1 e compará-los os 2 talvez isso resolva seu problema de seleção. Ou seja voce esta mostrando que a intervenção X causa uma melhora maior que a não-intervenção.
pode ser que os 2 grupos não sejam de um só lugar, mas de 2 filiais diferentes de uma mesma empresa, ou talvez grupos de 2 empresas diferentes. Assim pode ter outras diferenças entre os 2 grupos além de “quão bons eles já eram”. Isso é chamado de interação entre seleção e outra ameaça.
em principio historia, maturação, testagem, e instrumentação não são um problema para esse desenho, se os 2 grupos estão “juntos” de alguma forma. Mas se estão “separados” historia em particular pode ser um problema. Uma das filiais fez um curso sobre a tarefa A e a outra não. Isso é um exemplo de interação seleção e historia.
Estatística: testes não pareados nos ganhos (O2-O1) de cada grupo.
por conveniência: uma empresa aceitou usar o software e a outra não. Os programadores da primeira viram grupo experimental e da segunda controle.
grupos forçados - voce não consegue aplicar a intervenção no nível individual, pois os sujeitos estão em grupos. Exemplo mais clássico são salas de aula - se voce quer uma intervenção por aluno mesmo assim todos os alunos de uma mesma sala precisam estar no mesmo grupo
aleatório. As técnicas anteriores sofrem da ameaça de seleção. A ideia de atribuição aleatória é que se os grupos são grandes, eles acabam meio que homogêneos pela aleatoriedade. mas aleatório só funciona se os grupos são grandes. Se eles são pequenos não há garantias que os 2 grupos serão homogêneos. Em algumas áreas, experimentos sem atribuição aleatória são chamados de quase-experimentos.
pareamento/casamento: se voce tem uma pre-teoria que alguns fatores são importantes para o resultado, voce pode fazer a alocação usando esses fatores distribuindo-os nos grupos. Mas voce não deve usar o pre-teste para fazer o pareamento (não sei bem por que)
mortalidade diferencial Mortalidade é o termo que indica que sujeitos podem sair do experimento se ele demorar muito (se não for num laboratório). E sujeitos com diferentes características podem sair do experimento por razões diferentes baseado em coisas relacionadas com o experimento. Por exemplo, engenheiros de software melhores podem sair da empresa por melhores salários. Assim o pós-teste vai conter mais engenheiros piores, e isso pode ser a razão que o experimento não deu certo.
regressão à média . Se o experimento esta sendo aplicado a “grupos piores” (crianças que estão indo mal na escola, pacientes debilitados, programadores com alta taxa de erro, usuários com dificuldades, etc) que foram selecionados usando o/um pre-teste que contem ruído, então é de se esperar que o grupo pior melhore apenas por causa do ruído. Exemplo: um teste mede o conhecimento com ruído (eu estava com dor de cabeça no dia, eu não estudei exatamente aquele assunto, etc). Se você selecionar apenas os 10% piores, é de se esperar que a média desses aumente só por causa do ruído. Por exemplo assuma que todos são iguais, o que voce mediu foi apenas um ruido somado ao padrão. Se voce escolher apenas os 10% piores, foram aqueles que tiveram mais azar nesse teste. No próximo teste eles devem estar na média!
efeito placebo em alguns casos e principalmente em medicina, se você sabe ou acredita que esta tomando remédio você se “sente melhor”. Se a medida envolve algum aspecto subjetivo, então apenas tomar o remédio já ajuda. Esse efeito pode ser a causa da melhora do grupo experimental. Similar ao efeito Hawthorne
efeito de expectativa do experimentador se o experimentador interage com o sujeito, e se a medida tem um componente grande de subjetividade do sujeito (qualidade de vida, nível de dor, satisfação com o sistema) ou subjetividade do experimentador (a explicação esta boa, esta questão esta bem respondida, etc) o fato do experimentador saber qual é o grupo experimental pode causar um viés.
desenho padrão/gold standard para medicina: 2 grupos, alocação aleatória (de vez em quando pareamento), placebo (o grupo de controle recebe algo que parece a intervenção mas é neutra), duplo cego (nem o sujeito nem o experimentador sabe quem esta no controle e no experimental).
Validade interna - se experimento em particular tem outras explicações plausíveis para os resultados. São as ameaças que discutimos.
Validade externa - se os resultados do experimento podem ser generalizados para ambientes reais.
Um problema de validade externa é a escolha dos sujeitos. Se de alguma forma eles forem especias, pode ser que os resultados do experimento não sejam generalizáveis. Experimentos multi-centros.
em medicina, os experimentos são com grupos nacionais com particular características ou distribuições de características genéticas. Um experimento feito na Suécia pode ser aplicado no Brasil?
em psicologia, experimentos em alunos de universidades americanas (que são caras).
em computação, experimentos com alunos.