3.2 - centering and scaling - importante
Transformations to Resolve Skewness -(nao é importante)
3.3 Remocao de outlers nao é importante
Data Reduction and Feature Extraction (Super importante)
PCA (é a reduçao de dimensionaidade usando SVD de MO431)
Discussão sobre numero de dimensões que manter
manter 80% ou 90% da variabilidade dos dados (variança é o quadrado do “autovalor” correspondente)
ver o “joelho” no scree plot (fig 3.6)
3.4 missing values (parcialmente importante)
3.5 remover features (feature selection) - importante
3.6 dummy variables (super importante) - one-hot encoder
3.7 binning (pouco importante)
Pandas - tabeleas com dados categoricos em python
pandas get_dummies
sklearn one-hot enconder
sklearn preprocessing
sklearn PCA