Exercício 1

Exercicio 1

pode ser feito individualmente ou em pares

Para ser entregue via email como um PDF com as computações, os resultados e suas discussões.

Data de entrega: 3/3 até 11:59 da noite.

Para fazer esse e os outros exercícios eu sugiro usar o R. É possível usar Python e o pacote Statmodels. Usando o Python use por exemplo um notebook Jupyter para os resultados. É possível também usar o Jupyter com o R como ambiente de execução https://docs.anaconda.com/anaconda/navigator/tutorials/r-lang/. O RStudio também tem um ambiente de notebook https://rmarkdown.rstudio.com/

Poucos dados, não pareado

Os arquivos a1.csv e b1.csv contém um conjunto de medidas cada um.

  1. Use os seguintes testes

e reporte o p-valor.

  1. Gere um histograma dos dois dados e verifique se eles “se parecem” com Gaussianas. Tendo em vista esse resultado e o tamanho dos dados, quais dos dois valores de p-valor voce deve confiar. Eu não acho que há uma resposta correta para essa pergunta, mas eu gostaria de saber seus argumentos para a sua resposta

Poucos dados, pareados

O arquivo paired.csv contem um conjunto de dados pareados, onde cada coluna é um grupo e as linhas o pareamento.

Rode os seguintes algoritmos

  1. Compare os dos p-valores. Discuta se voce tem uma opinião sobre quais dos dois usar. De novo eu não sei se há uma resposta certa para essa pergunta.

  2. Rode a versão não pareada do teste t e do Wilcoxon. A versão não pareada deve ser mais fraca (poder menor - maior p-valor) que as versões pareadas dos algoritmos. Verifique que isso é verdade.

Estudo dos fatores que influenciam o p-valor.

Gere 2 conjuntos de 15 dados amostrados de uma normal de media 10 e 13, ambos com desvio padrão de 5.

  1. Calcule a media do p-valor usando o teste t para 50 repetições dos pares descritos acima.

  2. Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, mas com 25 dados cada

  3. Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 15 dados cada mas com 10 como desvio padrão

  4. Calcule a media do p-valor para o teste t para 50 repetições dos pares acima, com 15 dados, 5 de desvio padrão mas com medias 10 e 17.

  5. Discuta a influencia dos 3 fatores no p-valor: numero de dados, ruído dos dados (o desvio padrão das fontes) e “tamanho da diferença” entre as fontes (diferença entre as médias)