Além dos testes estatísticos

Jacques Wainer

6/4/20

Intervalo de confiança mostra a incerteza do valor da média da fonte de um conjunto de dado (Não há incerteza na média do conjunto/amostra)
Qual é o intervalo de valores para a média da fonte de tal forma que haja no minimo 5% de probabilidade da amostra ter saído da fonte.
É o dual de um teste estatístico de uma só amostra: qual o intervalo de valores para a média da fonte F que daria um p-valor maior que 0.05.
Da mesma forma que testes de uma só amostra, o intervalo de confiança faz pressuposições sobre as outras características de fonte F (menos a média). Na verdade cada teste de uma só amostra pode gerar (e em R gera) um intervalo de confiança para a média (ou mediana) da fonte.
Testes estatísticos podem gerar o intervalo de confiança, mas há uma outra técnica (bootstrap) que faz menos pressuposições sobre a fonte.

set.seed(1234)
a=rnorm(6,10)
t.test(a)
wilcox.test(a,conf.int=T)

Se o intervalo de confiança de dois conjunto de dados tem interceção então não há diferença significativa entre eles. (Ou melhor o p-valor do teste estatístico de 2 conjuntos dará um p-valor > 0.05)
Se o intervalo de confiança de dois conjuntos não tem interceção, então a diferença entre os conjuntos é estatisticamente significativa.

set.seed(1234)
a=rnorm(6,10)
b=rnorm(8,10.3)
x=rnorm(8,14)
t.test(a,b)
t.test(a)$conf.int
t.test(b)$conf.int
t.test(a,x)
t.test(x)$conf.int

Intervalos de confiança indicam a incerteza que se tem sobre a média (ou mediana) da fonte que gerou os dados.
Este artigo que argumenta a favor de intervalos de confiança em vez de testes estatísticos.
Se voce é o primeiro a publicar sobre um resultado, não há como compara-lo com o estado da arte. Assim voce deve apenas publicar o intervalo de confiança para o seu resultado.
Se voce não consegue reproduzir o programa ou metodo da “competição” para fazer um teste estatístico, voce pode comparar apenas os intervalos de confiança!

Testes estatísticos medem a confiança que existe uma diferença entre os 2 conjuntos de dados.
Infelizmente, o nome “significante” parece indicar que a diferença é grande, ou importante.
Isso não é verdade: um p-valor baixo apenas indica que voce tem bastante certeza que a diferença existe, não que ela é importante ou significante no sentido tradicional da palavra.
Tamanho do efeito é uma família de medidas que medem o tamanho da diferença entre os dois conjuntos.
São medidas adimensionais (sem unidade de dimensão: metro, prontos, etc)
Tamanho de efeito é comparável através de diferentes experimentos

Tamanho de efeito para medidas numéricas.
diferença das médias de A e B dividido por uma média ponderada dos desvios padrão (adimensional)
mede quão separado são as distribuições de dados de A e B: animação e um figura
um D=0.2 significa que a diferença das médias de A e B é 0.2 do desvio padrão “delas”.

Tamanho de efeito é comparável através de diferentes experimentos
Combinar tamanho de efeito é o que meta-analises fazem!
Cohen falou que um tamanho de efeito de 0.2 é pequeno. Na prática não é.
Há algumas meta-meta-analises que mostram quais são valores razoáveis em diferentes áreas: Engenharia de Software e Educação
0.25 é a média de tamanhos de efeito para intervenções em educação básica.

Tamanho do efeito é apenas 1 número. Assim como a média de um conjunto é apenas 1 número.
Mas é possível definir um intervalo de incerteza para a média de um conjunto (fazendo pressuposições sobre a fonte F dos dados do conjunto).
Da mesma forma é possível calcular um intervalo de confiança para tamanho de efeito
Talvez esse seja o futuro.
Isso resume tudo que é importante: se o intervalo de confiança cruza o 0 então tradicionalmente a diferença não é significativa.
os pacotes effsize e MBESS do R computam o intervalo de confiança para o tamanho de efeito.

Em farmacologia é muito importante mostrar que uma nova formulação de um remédio (genérico) é tão bom quanto a velha formulação.
Mas testes estatísticos tradicionais não mostra que dois conjuntos são iguais. p>0.05 apenas mostra que você não conseguiu mostrar que eles são “diferentes”.
Não dá para mostrar evidencias que 2 conjuntos são iguais. Dá apenas para mostrar que a diferença entre eles é menor que um limite, abaixo do qual você diz que não há “diferença importante”
é preciso definir um tamanho de efeito para a diferenças irrelevantes (super dependente da área)
há testes de equivalência que permitem calcular um p-valor para a hipótese nula que os dados tem um tamanho de efeito maior que o limite de irrelevância. Assim um p-valor baixo indica que é improvável que os dados tenham vindo de fontes mais separadas que o limite. Nesse caso se diz que nao ha diferença na prática ou não há diferença importante entre as duas amostras.
Em principio em computação nós poderíamos querer mostrar que um programa é equivalente a outro (sob algum aspecto mais importante) mas é melhor num aspecto secundário (custo, tempo de execução, etc).
Na prática eu nunca vi resultados deste tipo em computação.
o pacote equivalence em R implementa varios testes de equivalencia.