Para intervalo de confiança, o que queremos é:
Nas analises que vimos até agora, chamada frequentista, a média da população é fixa (mas desconhecida) - não é possível fazer afirmações probabilísticas sobre ela. A única coisa que é aleatória e sobre as quais se pode falar de probabilidade é a amostragem (o seu experimento)
Mas voce realmente só tem 1 experimento, 1 amostragem.
P(X|Y) é a probabilidade de X dado que Y aconteceu. Ou a probabilidade condicional de X dado Y
Como P(A|B) e P(B|A) se relacionam?
P(A|B) = \frac{P(B|A) P(A)}{P(B)}
“Antes” voce tinha apenas o A, com probabilidade de P(A) - o prior.
Ai aconteceu B (nova evidência) e voce passa a ter P(A|B) - o posterior.
P(A e B) = P(A|B) P(B) = P(B|A) P(A)
Essa é mais fácil de lembrar - P(A,B) a joint probability de A e B (a probabilidade de A e B acontecerem)
P(B) = \sum_x P(B,C=x) =\sum_x P(B|C=x) P(C=x)
x são todos os valores que C pode assumir.
Assim, varias vezes a evidencia P(B) é expressa como
P(B) = \sum_x P(B|A=x) P(A=x)
P(A=a|B=b) = \frac{P(B=b|A=a) P(A=a)}{\sum_x P(B=b,A=x)}
Finalmente se P(A|B) é uma distribuição (se A ou B é uma variável), então o termo de evidencia P(B) pode ser pensado apenas como uma constante para garantir que a distribuição de probabilidade P(A|B) some (ou de integral) = 1.
P(A=a|B=x) = K P(B=x|A=a) P(A=a)
desde que \sum_x P(A=a|B=x) ou \int P(A=a|B=x) dx seja = 1
a versão não-frequentista, chamada de bayesiana assume que voce pode fazer afirmações probabilísticas sobre coisas que voce não sabe, e que probabilidade é uma medida do seu desconhecimento.
com isso eu posso usar o teorema de Bayes para obter as probabilidades que queremos
P(hipotese|dados) = \frac{P(dados|hipotese) P(hipotese)}{P(dados)}
P(dados|hipotese) é o p-valor
p(hipotese) é o prior quanto eu acredito na hipotese nula antes de começar o experimento
p(dados) é um termo menos complicado que parece (parece ser a probabilidade dos dados dado que nao temos nenhuma outra informação). Nesse caso usa-se a regra da soma:
P(dados) = \sum_x P(dados|hipotese=x) P(hipotese=x)
ou apenas a ideia da constante que garante que distribuição soma 1
Na verdade em analise bayesiana nós definimos um modelo (M) para a geração dos dados que tem parâmetros \theta, e não apenas uma hipótese. O que queremos é obter os parâmetros do modelo dado os dados D Exemplo: imagem
P(\theta|D,M) =\frac{ P(D|\theta,M) P(\theta|M)}{P(D|M)}
o modelo é uma condição fixa
usamos a regra da soma (ou integral) para o P(D|M)
P(D|M) = \sum_x P(D|\theta=x,M) P(\theta=x|M)
P(\theta|M) é uma distribuição de probabilidades dos parâmetros do modelo, o prior dos \theta definido pelo modelo = tambem chamada de hiper-prior
imagem notem que alguém propôs esse modelo (chamado de BEST) mas com poucas semanas/meses de estudo voce pode propor um modelo especifico para o seu problema.
neste modelo há 5 parâmetros (mu1, mu2, sigma1, sigma2, e nu), cada um com o seu prior. As discussões de especialistas são sobre os hiper-priors desses modelos.
voce obtém a joint distribution desses 5 parâmetros P(mu1, mu2, sigma1, sigma2, nu | D, M)
mas dessa P(mu1, mu2, sigma1, sigma2, nu) voce pode obter P(mu1 - mu2) que é a distribuição de probabilidades da diferença entre a media do 1o conjunto e do 2o conjunto.
ou P(mu1 > m2), qual a probabilidade que a média do conjunto 1 é maior que a media do conjunto 2?
As técnicas de analise bayesiana não usam derivações simbólicas ou expressões analíticas para o P(\theta | D, M).
técnicas atuais usam simulação para gerar pontos com a distribuição P(\theta|D) ou P(h|D). Família de algoritmos MCMC - Monte Carlo Markov Chain (Metropolis-Hastings, Gibbs sampling,
do MCMC vc obtém N pontos (10.000 a 200.000) de uma 5-tupla (mu1, m2, sigma1, sigma2, nu) com a distribuição “correta”. Computar P(mu1 > mu2) é contar a proporção desses pontos onde mu1 > mu2.
Há alguns programas para gerar simulações de modelos (Stan, Jags, PyMC3)
existe um conceito similar com o intervalo de confiança que é chamado de HDI - highest density interval - o intervalo que concentra 95% da probabilidade e é exatamente isso que queremos quando falamos “com 95% de probabilidade a média da população está nesse intervalo”
existe o conceito de intervalo de equivalência prática, ROPE (region of practical equivalence) que é similar ao limite de equivalência pratica nos testes de equivalência, mas agora eu posso verificar qual é P(|mu1 - mu2| < ROPE) e isso me dá a probabilidade que as duas amostras são equivalentes/iguais na prática.
Bayesian Factors: relação do posterior de 2 hipóteses
BF = \frac{P(h1|D)}{P(h2|D)} = \frac{P(D|h1)}{P(D|h2)}\frac{P(h1)}{P(h2)}
Analise Bayesiana começa a resolver vários problemas dos testes tradicionais.
o problema de olhar os resultados (de um teste A/B) antes http://varianceexplained.org/r/bayesian-ab-testing/
multiplas comparações https://statmodeling.stat.columbia.edu/2016/08/22/bayesian-inference-completely-solves-the-multiple-comparisons-problem/
Este livro é uma excelente introdução
Este livro também é muito claro.
Há pelo menos tres implementações do modelo BEST em R bayesian.t.test e BEST (que também plota gráficos).
bayestestR é um pacote mais generico que permite voce especificar o modelo
Talvez em 10 anos não mais se fará análise estatística tradicional e na maioria dos casos utilizaremos análise bayesiana.