Para ser entregue via email como um PDF com as computações, os resultados e suas discussões.
Data de entrega: 6/9 até 11:59 da noite.
Para fazer esse e os outros exercícios eu sugiro usar o R. É possível usar Python e o pacote Statmodels. Usando o Python use por exemplo um notebook Jupyter para os resultados. É possível também usar o Jupyter com o R como ambiente de execução https://docs.anaconda.com/anaconda/navigator/tutorials/r-lang/. O RStudio também tem um ambiente de notebook https://rmarkdown.rstudio.com/
Gere 2 conjuntos de 30 dados amostrados de uma normal de média 10 e 12, ambos com desvio padrão de 5.
Calcule a media do p-valor usando o teste t para 50 repetições dos pares descritos acima. (A ideia de tirar a média de varios p-valores é só para termos mais certeza que o que vamos estudar não depende tanto da sorte quando voce for gerar as 30 amostras para cada grupo).
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, mas com 60 dados cada
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 30 dados cada mas com 10 como desvio padrão
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 30 dados, 5 de desvio padrão mas com medias 10 e 15.
Discuta a influencia dos 3 fatores no p-valor: número de dados, ruído dos dados (o desvio padrão das fontes) e diferença entre as médias das fontes
Rode os exemplos acima usando o Wilcoxon rank-sum e mostre que (provavelmente) os efeitos que voce encontrou no teste T é o mesmo para o Wilcoxon. Isso é para mostrar que esses efeitos no p-valor não dependem do teste em si mas são propriedades do conceito de p-valor.
Use os dados (não pareados) do exercício passado o ex2.csv
Gere o intervalo de confiança para a pressão sangüínea dos pacientes com diabetes e sem diabetes (intervalo de 95% de confiança)
Usando :
teste t
Wilcoxon rank sum
bootstrap.
Usando a mesma técnica para calcular o intervalo de confiança (uma das 3 acima), há interceção ente os intervalos de confiança dos 2 conjuntos de dados? Isso esta de acordo com o teste de diferença significativa entre eles?
Calcule o Cohen D com o pooled standard deviation para a diferença entre a pressão sangüínea de pacientes com e sem diabetes.
Compute o intervalo de confiança do Cohen D (use ou os pacotes mencionados em aula ou o bootstrap - mas voce deve achar alguma referencia na Internet sobre usar bootstrap para calcular o intervalo de confiança do Cohen D)
Usando o intervalo de confiança do Cohen D diga se a existe uma diferença significativa entre os dois conjuntos de dados.