Exercício 2 - Versão 4
Data de entrega: 12/7 a meia noite, via email.
Objetivos: aplicar os vários regressores visto em aula. Busca de hiperparametros
Leia o arquivo Bias_correction_ucl.csv. A derscriçao dos dados esta aqui
NOVO remova a coluna Date
remova a coluna Next_Tmin (coluna 25). O objetivo original dos dados é prever tanto Next_Tmin quanto Next_tmax. Mas nos so vamos usar o Next_Tmax. Mas não queremos que o valor do Next_Tmin influencie nessa previsão.
remova as linhas que tem valor faltante. Das 7752 linhas originais sobram 7588
O atributo de saída é Next_Tmax (a temperatura máxima no próximo dia).
Use 5-fold cross validation.
Use RMSE como medida de erro
A busca de hiperparametros será aleatória. O problema especificará um intervalo para hiperparametro. Use uma distribuição uniforme para escolher valores neste intervalo.
Se houver mais de um hiperparametro,
Reporte o RMSE da melhor combinação de hiperparametros e o valor dos hiperparametros encontrados
Também reporte o RMSE de usar os valores default do SKLearn para os hiperparametros que voce buscou.
Não tem hiperparametro
alpha: 10 números aleatórios entre 10^{-3} e 10^3: Uniforme no expoente,
alpha: 10 números aleatório entre 10^{-3} e 10^3: Uniforme no expoente,
Selecione 10 pares aleatórios ente:
Use epsilon = 0.1 ou 0.3
Use C entre 2^{-5} e 2^{15} uniforme no expoente
Selecione 10 trinca aleatórias ente:
Use epsilon = 0.1 ou 0.3
Use C entre 2^{-5} e 2^{15} uniforme no expoente
Use gamma entre 2^{-9} e 2^3 uniforme no expoente
K: 10 números aleatórios entre 1 e 1000
Neurônios na camada do meio: de 5 a 20, de três em três
Use prunning.
ccp_alpha 10 números aleatórios entre 0.0 e 0.04
Use todas as combinações dos valores abaixo.
n_estimators: use os valores: 10, 100 e 1000
max_features: use os valores 5, 10, 22 (NOVO era 24 antes)
Selecione 10 trinca aleatórias ente:
n_estimators: de 5 a 100
learning_rate: de 0.01 a 0.3
max_depth: 2 ou 3