Exercício 1

Exercicio 1

pode ser feito individualmente ou em pares

Para ser entregue via email como um PDF com as computações, os resultados e suas discussões.

Data de entrega: 3/3 até 11:59 da noite.

Para fazer esse e os outros exercícios eu sugiro usar o R. É possível usar Python e o pacote Statmodels. Usando o Python use por exemplo um notebook Jupyter para os resultados. É possível também usar o Jupyter com o R como ambiente de execução https://docs.anaconda.com/anaconda/navigator/tutorials/r-lang/. O RStudio também tem um ambiente de notebook https://rmarkdown.rstudio.com/

Os arquivos a1.csv e b1.csv contém um conjunto de medidas cada um.

e reporte o p-valor.

Gere um histograma dos dois dados e verifique se eles “se parecem” com Gaussianas. Tendo em vista esse resultado e o tamanho dos dados, quais dos dois valores de p-valor voce deve confiar. Eu não acho que há uma resposta correta para essa pergunta, mas eu gostaria de saber seus argumentos para a sua resposta

O arquivo paired.csv contem um conjunto de dados pareados, onde cada coluna é um grupo e as linhas o pareamento.

Rode os seguintes algoritmos

Compare os dos p-valores. Discuta se voce tem uma opinião sobre quais dos dois usar. De novo eu não sei se há uma resposta certa para essa pergunta.
Rode a versão não pareada do teste t e do Wilcoxon. A versão não pareada deve ser mais fraca (poder menor - maior p-valor) que as versões pareadas dos algoritmos. Verifique que isso é verdade.

Gere 2 conjuntos de 15 dados amostrados de uma normal de media 10 e 13, ambos com desvio padrão de 5.

Calcule a media do p-valor usando o teste t para 50 repetições dos pares descritos acima.
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, mas com 25 dados cada
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 15 dados cada mas com 10 como desvio padrão
Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 15 dados, 5 de desvio padrão mas com medias 10 e 17.
Discuta a influencia dos 3 fatores no p-valor: numero de dados, ruído dos dados (o desvio padrão das fontes) e “tamanho da diferença” entre as fontes (diferença entre as médias)