Exercício 3 - Versão 2

Jacques Wainer

Exercício 3 - Versão 2

Data de entrega: 25/7 a meia noite, via email.

Objetivos: aplicar os vários classificadores visto em aula. Busca de hiperparametros

Leia

OS DADOS da versão 1 estavam errados.

Leia o arquivo dados3.csv. O arquivo é um banco de dados conhecido sobre credito bancario na Australia, mas com alguns dos atributos categóricos originais descrição dos dados

O atributo de saída é V15 (classes 1 e 2).

Preprocessamento, Cross validation, medida de erro e busca de hiperparametros

Faça a conversão dos atributos categóricos (V5, V6 e V12) para numéricos, usando one-hot-encoder/dummy variables. Faça o centering e scaling para todos os atributos.

Use 5-fold cross validation.

Use AUC como medida de erro

A busca de hiperparametros será aleatória. O problema especificará um intervalo para hiperparametro. Use uma distribuição uniforme para escolher valores neste intervalo.

Se houver mais de um hiperparametro, escolha 10 combinações aleatórias deles.

Para cada um dos classificadores abaixo

Reporte o AUC da melhor combinação de hiperparametros e o valor dos hiperparametros encontrados

Também reporte o AUC de usar os valores default do SKLearn para os hiperparametros que voce buscou.

Logistic regression sem regularização

Sem regularização (e portanto sem hiperparametros)

Logistic regression com regularização L2

alpha: 10 números aleatórios entre 10^{-3} e 10^3: Uniforme no expoente,

LDA

Sem hiperparametros

QDA

Sem hiperparametros

SVM Linear

Selecione 10 valores aleatórios ente:

SVM com kernel RBF

Selecione 10 duplas aleatórias ente:

Naive Bayes

Use o Gaussian NB. Sem hiperparametros.

KNN

MLP

Arvore de decisão

Use prunning.

Random Forest

Use todas as combinações dos valores abaixo.

GBM

Selecione 10 trinca aleatórias ente: