Logistic regression: embora o nome tenha a palavra “regression” isso não é um regressor, é um classificador linear para 2 classes.
LR modela a probabilidade que o dado é positivo p.
LR assume que \log \frac{p}{1-p} é linear em relação linear dos atributos (equação 12.2)
No treino, o LR prever um p que corresponde a um 1 ou 0 para dados positivos ou negativos.
a saída p do LR para um dado novo é a probabilidade que o dado seja positivo. O LR usa 0.5 como threshold - se p \ge 05 o dado será classificado como positivo.
LR gera uma fronteira linear que separa as 2 classes. (fig 12.3 lado esquerdo). A fronteira é um hiperplano que separa 2 metades do espaco - uma linha se os dados sao 2D, um plano se os dados são 3D e assim por diante.
Linear discriminat analysis (LDA) é um outro classificador linear.
Similar ao PLS que é uma redução de dimensionalidade de problemas de regressão, o LDA encontra a direção (1D) que “melhor” separa as 2 classes.(figura 12.8) - é uma reduçao de dimensionalidade para uma dimensão. Não há no LDA o conceito de outras direções importantes - apenas o primeiro componente.
A fronteira é o hiperplano perpendicular a essa direção (mas essa fronteira nunca e tornada explicita). - defini-se um ponto 0 na direção do LDA que é a média de todos os pontos. - os dados novos são projetados nessa direção. Se o numero é negativo, a classe é negativa.
LDA é um dos poucos algoritmos que não da uma boa medida de probabilidade - apenas esse score da projeção na direção do LDA, que vai de menos infinito a mais infinito. Isso precisa ser convertido para uma probabilidade
Eu acho as formulas para o LDA difícil de entender. Basicamente a direção do LDA tem a ver com a reta que liga os dois centros das duas classes, mas essa linha é modificada pela matriz de covariância das dias classes veja a figura aqui Um dos problemas é que a definição do que significa “melhor separa”. Outro problema é que o LDA assume que todas as classes tem a mesma matriz de covariancia
Quadratic Discriminant analysis (QDA) tenta achar uma (hiper) parábola que melhor separa os dados
Um blog detalhado sobre LDA em python
É possível incluir um termo de regularização L2 (ridge) ou L1 (lasso) ou os dois (elastic net) para o LR
A regularização inclui um (ou 2) hiperparametros (usualmente \lambda).
Para o LDA (acho) que há conceitos similares a regularização mas eu nao conheco bem eles (algo a ver com a matriz de covariância). A seção 12.4 é nessa linha.
vou falar brevemente sobre isso quando eu falar o KNN
LR Note que o default é usar regularizacao L2 CUIDADO -
Note que no sklearn usa o C (como no SVM) em vez de \lambda como hiperparametro.
No Sklearn: