Experimentos

Jacques Wainer

Baseado no capitulo 24 (parte V) deste livro

Experimentos é a aplicação de uma intervenção a vários sujeitos em ambientes moderadamento controlados.

exemplos clássicos

sujeito são pessoas e a intervenção é um remedio/vacina
sujeito são usuários e a intervenção é uma interface para fazer uma tarefa
sujeito são alunos e a intervenção é uma nova técnica educacional para ensinar frações
sujeito são grupos de pessoas e a intervenção é um software colaborativo (git, google docs)
sujeito são empresas e a intervenção é um software organizacional (ticket management)
sujeito são cidades e a intervenção é uma politica pública

Desenho experimentais

Notação

X é a intervenção
O á a observação/medição

Um grupo: O X O

O desenho

O1 X O2

Por exemplo:

O1 mede a glicemia dos pacientes antes
X da o remedio
O2 mede a glicemia depois

mede o número de erros dos usuários fazendo uma tarefa X usando o sistema velho
instala o sistema novo com a nova interface
mede o número de erros na tarefa X (ou Y)

Ameaças:

mesmo que O2 seja melhor que O1, isso pode não ser devido ao sistema (X) mas sim a

os usuários aprenderam a fazer a tarefa X no primeiro O e portanto fazem menos erros. Essa é a ameaça de testagem
ou talvez os usuários fizeram um curso sobre a tarefa X entra O1 e O2: história
ou talvez os testes forma feitos com um ano de diferença e as pessoa se tornam mais proficientes em usar um sistema: maturação
suponha que em O2 a tarefa não é X mas Y. Talvez a tarefa Y seja mais fácil que X: instrumentação

Sempre que voce tiver teste antes e depois, voce tem que se preocupar com testagem instrumentação historia e maturação.

Mas esses são problemas potenciais.

se o experimento é feito num laboratório, num só dia, não há historia, mas talvez haja maturação negativa - os usuários ficam cansados no fim do dia e fazem mais erros.
se o experimento é feito em um ano testagem pode não ser um problema (ele se esqueceram de como fazer a tarefa X) mas historia e maturação passam a ser mais preocupantes.

Estatística

use um teste pareado (antes, depois) para verificar que o O2 é estatisticamente sigificantemente diferente e melhor que O1. Use as ideias de teste que equivalencia ou teste Bayesiano com ROPE para mostrar que a diferença é real/importante.

Dois grupos

sem pre teste

O desenho

X  O     - experimental
   O     - controle

Se o O do grupo experimental é melhor que o do controle, podemos dizer que foi devido ao X?

verifique que não ha testagem, maturação, historia, ou instrumentação!!
seleção: pode ser que o grupo experimental já era melhor que o controle. !!!

Vou discutir os mecanismos de atribuição dos sujeitos para os 2 grupos mais abaixo

Estatistica: testes não pareados entre O do experimento e O do controle.

com pre teste

O1  X  O2
O1     O2

seleção pode ser um problema mas se voce calcular O2-O1 e compara-los os 2 talvez isso resolva seu problema de seleção. Ou seja voce esta mostrando que a intervenção X causa uma melhora maior que a não-intervenção.
pode ser que os 2 grupos não seja de um só lugar, mas de 2 filiais diferentes de uma mesma empresa, ou talvez grupos de 2 empresas diferentes. Assim pode ter outras diferenças entre os 2 grupos alem de “quão bons eles ja eram”. Isso é chamado de interação entre seleção e outra ameaça.
em principio historia, maturação, testagem, e instrumentação não são um problema para esse desenho, se os 2 grupos estão “juntos” de alguma forma. Mas se estão “separados” historia em particular pode ser um problema. Uma das filiais fez um curso sobre a tarefa X e a outra não. Isso é um exemplo de interação seleção e historia.

Estatistica: testes não pareados nos ganhos (O2-O1) de cada grupo.

mecanismos de atribuição

por conveniência: uma empresa aceitou usar o software e a outra não. Os programadores da primeira viram grupo experimental e da segunda controle.
grupos forçados - voce não consegue aplicar a intervenção no nível individual, pois os sujeitos estão em grupos. Exemplo mais clássico são salas de aula - se voce quer uma intervenção por aluno mesmo assim todos os alunos de uma mesma sala precisam esta no mesmo grupo
aleatório. As técnicas anteriores sofrem da ameaça de seleção. A ideia de atribuição aleatória é que se os grupos são grandes, eles acabam meio que homogêneos pela aleatoriedade. mas aleatório só funciona se os grupos são grandes. Se eles são pequenos não há garantias que os 2 grupos serão homogêneos. Em algumas áreas, experimentos sem atribuição aleatória são chamados de quase-experimentos.
pareamento/casamento: se voce tem uma pre-teoria que alguns fatores são importantes para o resultado, voce pode fazer a alocação usando esses fatores distribuindo-os nos grupos. Mas voce nao deve usar o pre-teste para fazer essa seleção (por que?? não sei bem).

Outras ameaças

mortalidade diferencial Mortalidade é o termo que indica que sujeitos podem sair do experimento se ele demorar muito (não for num laboratório). E sujeitos com diferentes características podem sair do experimento por razoes diferentes baseado em coisas relacionadas com o experimento. Por exemplo engenheiros de software melhores podem sair da empresa por melhores salários. Assim o pós-teste vai conter mais engenheiros piores, e isso pode ser a razão que o experimento não deu certo.
regressão à média . Se o experimento esta sendo aplicado a “grupos piores” (crianças que estão indo mal na escola, pacientes debilitados, programadores com alta taxa de erro, usuários com dificuldade, etc) que foram selecionados usando o/um pre-teste que contem ruído, então é de se esperar que o grupo pior melhore apenas por causa do ruído. Exemplo: um teste mede o conhecimento com um ruído (eu estava com dor de cabeça no dia, eu não estudei exatamente aquele assunto, etc). Se você selecionar apenas os 10% piores, é de se esperar que a media desses aumente só por causa do ruído. Por exemplo assuma que todos sao iguais, o que voce mediu foi apenas um ruido somado ao padrão. Se voce escolher apenas os 20% piores, foram aqueles que tiveram mais azar nesse teste. No proximo eles devem estar na média!
efeito placebo em alguns casos e principalmente em medicina, se você sabe ou acredita que esta tomando remedio você se “sente melhor”. Se a medida envolve algum aspecto subjetivo, então apenas tomar o remedio já ajuda. Esse efeito pode ser a causa da melhora do grupo experimental. Similar ao efeito Hawthorne
efeito de expectativa do experimentador se o experimentador interage com o sujeito, e se a medida tem um componente grande de subjetividade do sujeito (qualidade de vida, nível de dor, satisfação com o sistema) ou subjetividade do experimentador (a explicação esta boa, esta questão esta bem respondida, etc) o fato do experimentador saber qual é o grupo experimental pode causar um viés.
desenho padrão/gold standard para medicina: 2 grupos, alocação aleatória (de vez em quando pareamento), placebo (o grupo de controle recebe algo que parece a intervenção mas é neutra), duplo cego (nem o sujeito nem o experimentador sabe quem esta no controle e no experimental).

Validade interna e externa

Validade interna - se experimento em particular tem outras explicações plausíveis para os resultados. são as ameaças que discutimos.

Validade externa - se os resultados do experimento podem ser generalizados para ambientes reais.

Um problema de validade externa é a escolha dos sujeitos. Se de alguma forma eles forem especias, pode ser que os resultados do experimento não sejam generalizáveis. Experimentos multi-centros.

em medicina, os experimentos são com grupos nacionais com particular características ou distribuições de características genéticas. Um experimento feito na Suécia pode ser aplicado no Brasil?
em psicologia, experimentos em alunos de universidades, caras.
em computação, experimentos com alunos.