Exercício 1

Exercicio 1

pode ser feito individualmente ou em pares

Para ser entregue via email como um PDF com as computações, os resultados e suas discussões.

Data de entrega: 9/10 até 11:59 da noite.

Para fazer esse e os outros exercícios eu sugiro usar o R. É possível usar Python e o pacote Statmodels. Usando o Python use por exemplo um notebook Jupyter para os resultados. É possível também usar o Jupyter com o R como ambiente de execução https://docs.anaconda.com/anaconda/navigator/tutorials/r-lang/. O RStudio também tem um ambiente de notebook https://rmarkdown.rstudio.com/

O arquivo ex1.csv contem dados sobre o pressão sanguine (bp) e se a pessoa é ou não diabética (type)

e reporte o p-valor da comparação entre a pressão sangüínea de pessoas diabéticas ou não.

qual tem a maior pressão?
a diferença é significativa?
Discuta a diferença dos p-valores. Quais dos 2 testes voce acha mais apropriado nesse caso.

O arquivo ex1-paired.csv contem dados sobre duas medições em Agosto e em Novembro em 13 lugares diferentes (eu não sei que medidas são essas).

nestes dados.

Qual o mes com maior mediana ou média?
A diferença é significativa?
Discuta a diferença dos p-valores. Quais dos 2 testes voce acha mais apropriado nesse caso.

Gere 2 conjuntos de 30 dados amostrados de uma normal de media 10 e 12, ambos com desvio padrão de 5.
Calcule a media do p-valor usando o teste t para 50 repetições dos pares descritos acima. (A ideia de tirar a média de varios p-valores é só para termos mais certeza que o que vamos estudar não depende tanto da sorte quando voce for gerar as 30 amostras para cada grupo).
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, mas com 60 dados cada
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 30 dados cada mas com 10 como desvio padrão
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 30 dados, 5 de desvio padrão mas com medias 10 e 15.

Discuta a influencia dos 3 fatores no p-valor: número de dados, ruído dos dados (o desvio padrão das fontes) e “tamanho da diferença” entre as fontes (diferença entre as médias)
Rode os exemplos acima usando o Wilcoxon rank-sum e mostre que (provavelmente) os efeitos que voce encontrou no teste T é o mesmo para o Wilcoxon. Isso é para mostrar que esses efeitos no p-valor não dependem do teste em si mas são propriedades do conceito de p-valore.