Intervalo de confiança mostra a incerteza do valor da média da fonte dado um conjunto de dados (Não há incerteza na média do conjunto/amostra)
a definição acima é apenas uma 1a aproximação do que é o intervalo de confiança.
Qual é o intervalo de valores para a média da fonte de tal forma que haja no minimo 5% de probabilidade da amostra ter saído da fonte.
É o dual de um teste estatístico de uma só amostra: qual o intervalo de valores para a média da fonte F que daria um p-valor maior que 0.05.
Da mesma forma que testes de uma só amostra, o intervalo de confiança faz pressuposições sobre as outras características de fonte F (menos a média). Na verdade cada teste de uma só amostra pode gerar (e em R gera) um intervalo de confiança para a média (ou mediana) da fonte.
Testes estatísticos podem gerar o intervalo de confiança, mas há uma outra técnica (bootstrap) que faz menos pressuposições sobre a fonte.
set.seed(1234)
a=rnorm(6,10)
t.test(a)
wilcox.test(a,conf.int=T)
bootstrap é um procedimento que permite calcular intervalos de confiança de várias medidas não só a média ou mediana.
ele assume que a amostra é uma fonte de dados (com infinita repetição de cada dado da amostra). Voce faz varias “amostragens” dessa nova fonte (com varias repetições de cada dado) e calcula qual intervalo contem 95% das medidas que voce fez nas amostras
set.seed(1234)
a=rnorm(30,10)
t.test(a)$conf.int
library(boot)
auxf <- function(dado,indice){
return(mean(dado[indice]))
}
bb = boot(a,R=5000, statistic=auxf)
boot.ci(bb,type="bca")
type="bca"
é uma forma para calcular o intervalo de
confiança que faz algumas correções, que parece ser a mais aceita.Este video fala sobre bootstrap em geral.
Esta sequencia de videos discute a teoria de bootstrap para calcular intervalos de confiança (de qualquer medida - não apenas a média como estamos usando).
Finalmente este tutorial explica como usar a função boot e boot.ci do R para calcular o intervalo de confiança da média.
Se o intervalo de confiança de dois conjunto de dados tem interceção então não há diferença significativa entre eles. (Ou melhor o p-valor do teste estatístico de 2 conjuntos dará um p-valor > 0.05)
Se o intervalo de confiança de dois conjuntos não tem interceção, então a diferença entre os conjuntos é estatisticamente significativa.
set.seed(1234)
a=rnorm(6,10)
b=rnorm(8,10.3)
x=rnorm(8,14)
t.test(a,b)
t.test(a)$conf.int
t.test(b)$conf.int
t.test(a,x)
t.test(x)$conf.int
Intervalos de confiança indicam a incerteza que se tem sobre a média (ou mediana) da fonte que gerou os dados.
Este artigo que argumenta a favor de intervalos de confiança em vez de testes estatísticos.
Se voce é o primeiro a publicar sobre um resultado, não há como compara-lo com o estado da arte. Assim voce deve apenas publicar o intervalo de confiança para o seu resultado.
Se voce não consegue reproduzir o programa ou metodo da “competição” para fazer um teste estatístico, voce pode comparar apenas os intervalos de confiança!
Testes estatísticos medem a confiança que existe uma diferença entre os 2 conjuntos de dados.
Infelizmente, o nome “significante” parece indicar que a diferença é grande, ou importante.
Isso não é verdade: um p-valor baixo apenas indica que voce tem bastante certeza que a diferença existe, não que ela é importante ou significante no sentido tradicional da palavra.
Tamanho do efeito é uma família de medidas que medem o tamanho da diferença entre os dois conjuntos.
São medidas adimensionais (sem unidade de dimensão: metro, pontos na prova, etc)
Tamanho de efeito é comparável através de diferentes experimentos
Tamanho de efeito para medidas numéricas.
diferença das médias de A e B dividido pelo “desvio padrão” (adimensional)
mede quão separado são as distribuições de dados de A e B: animação e um figura
um D=0.2 significa que a diferença das médias de A e B é 0.2 do desvio padrão “delas”.
Há algumas definições diferentes para o Cohen D. A ideia é sempre a diferença das médias dividido pelo desvio padrão “dos dois conjuntos”. A questão é o que é o desvio padrão “dos conjuntos”. Ha algumas possibilidades
Além do Cohen D, há uma medida derivada chamada Hedge g que é o Cohen D com pooled standard variation mas com um outro termo multiplicativo de correção que tem maior efeito para conjuntos menores. Esse parece ser a medida mais correta para usar em artigos, mas ela não é diferente do Cohen D se os dois conjuntos de dados são grandes.
Tamanho de efeito é comparável através de diferentes experimentos
Combinar tamanho de efeito é o que meta-analises fazem!
Cohen falou que um tamanho de efeito de 0.2 é pequeno. Na prática não é.
Há algumas meta-meta-analises que mostram quais são valores razoáveis em diferentes áreas: Engenharia de Software e Educação
0.25 é a média de tamanhos de efeito para intervenções em educação básica.
Tamanho do efeito é apenas 1 número. Assim como a média de um conjunto é apenas 1 número.
Mas é possível definir um intervalo de incerteza para a média de um conjunto (fazendo pressuposições sobre a fonte F dos dados do conjunto).
Da mesma forma é possível calcular um intervalo de confiança para tamanho de efeito
Talvez esse seja o futuro.
Isso resume tudo que é importante: se o intervalo de confiança cruza o zero então tradicionalmente a diferença não é significativa.
os pacotes effsize e MBESS do R computam o intervalo de confiança para o tamanho de efeito.
é possível também usar o bootstrap mas é um pouco mais complicado neste caso já que há dois conjuntos de dados que precisam ser bootstrap
Em farmacologia é muito importante mostrar que uma nova formulação de um remédio (genérico) é tão bom quanto a velha formulação.
Mas testes estatísticos tradicionais não mostra que dois conjuntos são iguais. p>0.05 apenas mostra que você não conseguiu mostrar que eles são “diferentes”.
Não dá para mostrar evidencias que 2 conjuntos são iguais. Dá apenas para mostrar que a diferença entre eles é menor que um limite, abaixo do qual você diz que não há “diferença importante”
é preciso definir um tamanho de efeito para a diferenças irrelevantes (super dependente da área)
há testes de equivalência que permitem calcular um p-valor para a hipótese nula que os dados tem um tamanho de efeito maior que o limite de irrelevância. Assim um p-valor baixo indica que é improvável que os dados tenham vindo de fontes mais separadas que o limite. Nesse caso se diz que nao ha diferença na prática ou não há diferença importante entre as duas amostras.
Em principio em computação nós poderíamos querer mostrar que um programa é equivalente a outro (sob algum aspecto mais importante) mas é melhor num aspecto secundário (custo, tempo de execução, etc).
Na prática eu nunca vi resultados deste tipo em computação.
o pacote TOSTER em R implementa varios testes de equivalencia.