MO432 -capitulo 12

Jacques Wainer

12.1 pode pular

12.2 Importante

Logistic regression: embora o nome tenha a palavra “regression” isso não é um regressor, é um classificador linear para 2 classes.

LR modela a probabilidade que o dado é positivo p.

LR assume que \log \frac{p}{1-p} é linear em relação linear dos atributos (equação 12.2)

No treino, o LR prever um p que corresponde a um 1 ou 0 para dados positivos ou negativos.

a saída p do LR para um dado novo é a probabilidade que o dado seja positivo. O LR usa 0.5 como threshold - se p \ge 05 o dado será classificado como positivo.

LR gera uma fronteira linear que separa as 2 classes. (fig 12.3 lado esquerdo). A fronteira é um hiperplano que separa 2 metades do espaco - uma linha se os dados sao 2D, um plano se os dados são 3D e assim por diante.

12.3 Importante

Linear discriminat analysis (LDA) é um outro classificador linear.

Similar ao PLS que é uma redução de dimensionalidade de problemas de regressão, o LDA encontra a direção (1D) que “melhor” separa as 2 classes.(figura 12.8) - é uma reduçao de dimensionalidade para uma dimensão. Não há no LDA o conceito de outras direções importantes - apenas o primeiro componente.

A fronteira é o hiperplano perpendicular a essa direção (mas essa fronteira nunca e tornada explicita). - defini-se um ponto 0 na direção do LDA que é a média de todos os pontos. - os dados novos são projetados nessa direção. Se o numero é negativo, a classe é negativa.

LDA é um dos poucos algoritmos que não da uma boa medida de probabilidade - apenas esse score da projeção na direção do LDA, que vai de menos infinito a mais infinito. Isso precisa ser convertido para uma probabilidade

Eu acho as formulas para o LDA difícil de entender. Basicamente a direção do LDA tem a ver com a reta que liga os dois centros das duas classes, mas essa linha é modificada pela matriz de covariância das dias classes veja a figura aqui Um dos problemas é que a definição do que significa “melhor separa”. Outro problema é que o LDA assume que todas as classes tem a mesma matriz de covariancia

Quadratic Discriminant analysis (QDA) tenta achar uma (hiper) parábola que melhor separa os dados

Um blog detalhado sobre LDA em python

12.4 Pule

12.5 mais ou menos importante

É possível incluir um termo de regularização L2 (ridge) ou L1 (lasso) ou os dois (elastic net) para o LR

A regularização inclui um (ou 2) hiperparametros (usualmente \lambda).

Para o LDA (acho) que há conceitos similares a regularização mas eu nao conheco bem eles (algo a ver com a matriz de covariância). A seção 12.4 é nessa linha.

12.6 pule

vou falar brevemente sobre isso quando eu falar o KNN

Skearn

LR Note que o default é usar regularizacao L2 CUIDADO -

Note que no sklearn usa o C (como no SVM) em vez de \lambda como hiperparametro.

No Sklearn:

LDA

Sklearn tambem tem o QDA