Análise Bayesiana

Os resultados de testes estatísticos de significância e intervalo de confiança não são exatamente o que a gente quer
p-valor é a P(dados | hipot-nula). Se esse número é baixo então é improvável que os dados tenham vindo “da hipótese nula”
mas o que a gente realmente quer é P(hipot-nula | dados)! Qual a probabilidade da hipótese nula ser verdadeira, tendo em vista os dados que a gente tem!

Para intervalo de confiança, o que queremos é:
- qual é o intervalo para o valores de tal forma que a probabilidade da média da população estar dentro desse intervalo é de 95%
- mas o que intervalo de confiança realmente significa não é exatamente isso
Nas analises que vimos até agora, chamada frequentista, a média da população é fixa (mas desconhecida) - não é possível fazer afirmações probabilísticas sobre ela. A única coisa que é aleatória e sobre as quais se pode falar de probabilidade é a amostragem (o seu experimento).
Mas voce realmente só tem 1 experimento, 1 amostragem.

Teorema de Bayes

\(P(A|B)\) é a probabilidade de \(A\) dado que \(B\) aconteceu. Ou a probabilidade condicional de A dado B

Como obter \(P(A|B)\) de \(P(B|A)\)!

\[ P(A|B) = \frac{P(B|A) P(A)}{P(B)}\]

\(P(B|A)\) é o likelihood
\(P(A)\) é o prior
\(P(A|B)\) é o posterior
de vez em quando o termo \(P(B)\) é chamado de evidence

“Antes” voce tinha apenas o A, com probabilidade de P(A) - o prior.

Ai aconteceu B (nova evidência) e voce passa a ter P(A|B) - o posterior.

Outras versões do teorema de Bayes

Outras versões:

\[P(A,B) = P(A|B) P(B) = P(B|A) P(A)\]

Essa é mais fácil de lembrar - \(P(A,B)\) a joint probability de A e B (a probabilidade de A e B acontecerem)

Variáveis aleatórias

Considere A e B como variáveis aleatórias que pode assumir alguns valores distintos.

\[P(A=a|B=b) = \frac{P(B=b|A=a) P(A=a)}{P(B=b)}\]

Ou A e B podem assumir qualquer valores real, e então P(A) é uma distribuição de probabilidade. O teorema de Bayes funciona para distribuições de probabilidades

\[ p(a|b) = \frac{p(b|a) p(a)}{p(b)}\]

Outra versão com uma condição fixa

\[ P(A|B,C) = \frac{P(B|A,C) P(A|C)}{P(B|C)}\]

neste caso há uma pressuposição ou condição \(C\) que se mantem

Uma regra importante

\[P(A) = \sum_x P(A,B=x) =\sum_x P(A|B=x) P(B=x)\]

Assim, varias vezes a evidencia \(P(B)\) é expressa como

\[P(B) = \sum_x P(B|A=x) P(A=x)\]

\[P(A=a|B=b) = \frac{P(B=b|A=a) P(A=a)}{\sum_x P(B=b|A=x)}\]

Finalmente se \(P(A|B)\) é uma distribuição (algum do \(A\) ou \(B\) é uma variável), então o termo de evidencia \(P(B)\) pode ser pensado apenas como uma constante para garantir que a distribuição de probabilidade \(P(A|B)\) some (ou de integral) = 1.

\[P(A=a|B=x) = K P(B=x|A=a) P(A=a)\]

desde que \(\sum_x P(A=a|B=x)\) ou \(\int P(A=a|B=x) dx\) seja = 1

Ideia central da análise bayesiana

a versão não-frequentista, chamada de bayesiana assume que voce pode fazer afirmações probabilísticas sobre coisas que voce não sabe, e que probabilidade é uma medida do seu desconhecimento.
com isso eu posso usar o teorema de Bayes para obter as probabilidades que queremos

\[ P(h|d) = \frac{P(d|h) P(h)}{P(d)}\]

\(P(d|h)\) é o p-valor
\(p(h)\) é o prior quanto eu acredito na hipotese nula antes de começar o experimento
\(p(d)\) é um termo menos complicado que parece (parece ser a probabilidade dos dados dado que nao temos nenhuma outra informação). Nesse caso usa-se a regra da soma:
- \(P(d) = \sum_x P(d|h=x)\)
- ou apenas a ideia da constante que garante que distribuição soma 1

Próximo passo da analise bayesiana

Na verdade em analise bayesiana nós definimos um modelo (M) para a geração dos dados que tem parâmetros \(\theta\), e não apenas uma hipótese. O que queremos é obter os parâmetros no modelo dado os dados \(D\) Exemplo: imagem

\[P(\theta|D,M) =\frac{ P(D|\theta,M) P(\theta|M)}{P(D|M)}\]

o modelo é uma condição fixa
usamos a regra da soma (ou integral) para o \(P(D|M)\)
\(P(D|M) = \sum_x P(D|\theta=x,M) P(\theta|M)\)
\(P(\theta|M)\) é uma distribuição de probabilidades dos parâmetros do modelo, o prior dos \(\theta\) definido pelo modelo

Diferentes modelos (M) propostos

imagem notem que alguém propôs esse modelo (chamado de BEST) mas com poucas semanas/meses de estudo voce pode propor um modelo especifico para o seu problema.
neste modelo há 5 parâmetros (mu1 mu2 sigma1 sigma2 e nu), cada um com o seu prior. As discussões de especialistas são sobre os priors desses modelos.
voce obtém a joint distribution desses 5 parâmetros P(mu1,mu2,sigma1,sigma2,nu|D)
mas dessa P(mu1,mu2,sigma1,sigma2,nu) voce pode obter P(mu1-mu2) que é a distribuição de probabilidades da diferença entre a media do 1o conjunto e do 2o conjunto.
ou P(mu1>m2), qual a probabilidade que a média do conjunto 1 é maior que a media do conjunto 2?

MCMC

As técnicas de analise bayesiana não usam derivações simbólicas ou expressões analíticas para o \(P(\theta|D)\).
técnicas atuais usam simulação para gerar pontos com a distribuição \(P(\theta|D)\) ou \(P(h|D)\). Família de algoritmos MCMC - Monte Carlo Markov Chain
do MCMC vc obtém N pontos (50.000 ou 200.000) de uma 5-tupla (mu1, m2, sigma1,sigma2, nu) com a distribuição “correta”. Computar P(mu1>mu2) é contar a proporção desses pontos onde mu1>mu2.
Há alguns programas para gerar simulações de modelos (Stan, Jags, PyMC3)

Outras Inferências possíveis da joint distribution

existe um conceito similar com o intervalo de confiança que é chamado de HDI - highest density interval - o intervalo que concentra 95% da probabilidade e é exatamente isso que queremos quando falamos “com 95% de probabilidade a média da população esta nesse intervalo”
existe o conceito de intervalo de equivalência prática, ROPE (region of practical equivalence) que é similar ao limite de equivalência pratica nos testes de equivalência, mas agora eu posso verificar qual é \(P(|mu1-mu2|<ROPE)\) e isso me da a probabilidade que as duas amostras são equivalentes/iguais na prática.
Bayesian Factors: relação do posterior de 2 hipóteses

\[BF = \frac{P(h1|D)}{P(h2|D)} = \frac{P(D|h1)}{P(D|h2)}\frac{P(h1)}{P(h2)}\]

há tabelas para “o quanto convencido” voce pode dizer que esta em relação h1 dado o BF (similar ao p-valor<0.05)

Mais sobre Analise bayesiana

Analise Bayesiana resolve vários problemas dos testes tradicionais. Em particular o problema de múltiplas comparações (mas não sei se o problema de múltiplos testes)
Este livro é uma excelente introdução
Há pelo menos duas implementações do modelo BEST em R bayesian.t.test e BEST (que também plota gráficos)
Talvez em 10 anos não mais se fará análise estatística tradicional e na maioria dos casos utilizaremos análise bayesiana.

Analise Bayesiana