Exercício 1

Jacques Wainer

Exercício 1

Data de entrega: 1/7 a meia noite, via email.

Objetivos: leitura, preprocessamento, validação cruzada e regressão linear

Leia

Leia o arquivo car-data.csv. O arquivo é um csv com colunas que são strings (representando valores categóricos)

Voce provavelmente precisa usar algo como o pandas para ler o arquivo como um todo.

O atributo de saída é Selling_Price

Converta os atributos categóricos para numéricos

Usando o one-hot-enconder, converta todos os atributos categóricos para numéricos.

Centering and scaling

Faca o centering and standard scaling para todos os atributos de entrada

PCA

reduza a dimensionalidade dos atributos de entrada usando PCA.

  1. quantas dimensões restarão se mantivermos 90% da variância dos dados?

  2. Use o scree plot para determinar quantas dimensões devem ser mantidas

  3. converta os dados usando o PCA com 90% das variância.

Validação cruzada e regressão linear

Fazendo 5 repetições de uma validação cruzada aleatória com split de 70/30 (70% treino 30% teste). Treine uma regressão linear no conjunto de treino e meça o RMSE e o MAE deste modelo treinado no conjunto de teste correspondente.

Imprima o RMSE e o MAE no conjuntos de testes das 5 repetições. Imprima também a media do RMSE e do MAE.