Data de entrega: 1/7 a meia noite, via email.
Objetivos: leitura, preprocessamento, validação cruzada e regressão linear
Leia o arquivo car-data.csv. O arquivo é um csv com colunas que são strings (representando valores categóricos)
Voce provavelmente precisa usar algo como o pandas para ler o arquivo como um todo.
O atributo de saída é Selling_Price
Usando o one-hot-enconder, converta todos os atributos categóricos para numéricos.
Faca o centering and standard scaling para todos os atributos de entrada
reduza a dimensionalidade dos atributos de entrada usando PCA.
quantas dimensões restarão se mantivermos 90% da variância dos dados?
Use o scree plot para determinar quantas dimensões devem ser mantidas
converta os dados usando o PCA com 90% das variância.
Fazendo 5 repetições de uma validação cruzada aleatória com split de 70/30 (70% treino 30% teste). Treine uma regressão linear no conjunto de treino e meça o RMSE e o MAE deste modelo treinado no conjunto de teste correspondente.
Imprima o RMSE e o MAE no conjuntos de testes das 5 repetições. Imprima também a media do RMSE e do MAE.