Exercício 1
Data de entrega: 30/5 a meia noite, via moodle
Objetivos: leitura, preprocessamento, validação cruzada e regressão linear
Leia o arquivo solar-flare.csv. O arquivo é tipo csv mas usa um branco como separador. Ainda a primeira linha nao é para ser lida, e não há uma linha com o nome dos atributos/colunas.
Voce provavelmente precisa usar algo como o pandas para ler o arquivo como um todo.
As tres primeiras colunas são categóricas. As ultimas 3 colunas são os atributos de saída - vc quer prever cada um dos 3 valores finais.
Uma explicação para esses dados esta em https://archive.ics.uci.edu/ml/datasets/Solar+Flare
Imprima usando o pandas.head() o inicio e o fim desse conjunto de dados.
Usando o one-hot-enconder, converta todos os atributos categóricos para numéricos.
Imprima usando o pandas.head() o inicio e o fim desse conjunto de dados transformados.
Faca o centering and standard scaling para todos os atributos de entrada (convertidos para numéricos)
reduza a dimensionalidade dos atributos de entrada usando PCA.
quantas dimensões restarão se mantivermos 90% da variância dos dados?
Use o scree plot para determinar quantas dimensões devem ser mantidas
converta os dados usando o PCA com 90% das variância.
Fazendo 5 repetições de uma validação cruzada aleatória com split de 70/30 (70% treino 30% teste).
Treine 3 regressões lineares, uma para cada um dos 3 atributos de saída.
regressão linear do Sklearn https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
Treine no conjunto de treino e meça o RMSE e o MAE deste modelo treinado no conjunto de teste correspondente.
Imprima o RMSE e o MAE no conjunto de testes de cada uma das 5 repetições. Imprima também a média do RMSE e do MAE.