Falamos de QDA na aula de LDA
pagina com LDA e QDA e gaussianas
Lembre-se dos MLP da parte de regressão. MLP em regressão tem
Para MLP para classificação
\sum (y_{i,l} - p_{i,l}(x))^2
y_{i,l} é 0 ou 1
\sum y_{i,l} \log(p_{i,l}(x))
Pode incluir uma regularização L2 (que é chamada de weight decay em MLP)
É muito mais facil entender os SVM no problema de classificação do que de regressão (como fizemos no cap 9). Mas este capitulo do livro nao explica melhor o SVM.
A principal diferença é que na regressão há um hiperparametro \epsilon que é a largura da regiao de indiferença em volta do valor da regressão que não conta como erro (hinge loss)
No SVM para classificação, voce que maximizar algo como essa regiao (isso é a margem que separa as duas classes). E não há esse hiperparametro.
um video com as ideias mas não formulas.
De uma olhada na pagina do wikipedia https://en.wikipedia.org/wiki/Support_vector_machine Mas a wikipedia usa uma notação que não é a mais comum.
A formula mas comum é
min \quad |w|^2 + C \sum \xi_i
e não
min \quad \lambda |w|^2 + \frac{1}{n} \sum \xi_i
este video é uma derivação das fórmulas primal e dual do SVM (infelizmente usando R no lugar de C)
KNN para regressão tira a média dos k vizinhos
KNN para regressão usa a classe mais comum entre os k-vizinhos.
K deve ser impar para 2 classes (assim ha sempre um vencedor)
Vou falar de multiclasse em outra aula
Variações do KNN da regressão são potencialmente uteis na classificação
Naive Bayes - não tem um correspondente para regressão.
Util e mais facil de entender para atributos categoricos
modelar a P(y|X) diretamente.
Eq 13.5
P(y=c|X) = \frac{P(X|y=c) P(y=c)}{P(X)}
jogue fora o denominador. Os números não mais somam 1, mas isso pode ser corrigido (divida pela soma dos valores) ou nem corrija - escolha a classe qyue tem o maior P(X|y=c) P(y=c)
Calcule P(y=c) como sendo a frequencia que a classe c aparece nos dados de treino!
Independencia P(A e B) = P(A) P(B)
na verdade P(A e B) = P(A) P(B|A) e a independencia é dizer que saber A não modifica nada as probabilidades de B (são independentes)
naive/ingenuo bayes P(X|y=c) = \Pi P(X_j|y=c) Os atributos são independentes (dado a saída y=c.
isso raramente é verdade - é uma suposição ingenua.
P(X_j=a|y=c) é a frequencia que a aparece no atributo j quando a classe de saída é c.
P(X_j|y) e P(y) são substituídos por frequencias no conjunto de treino.
Se uma combinação X_j=a e y=c não aparece não use 0 mas sim um \epsilon = 1/P(y=c)
Para dados continuos (nos X_j), assuma que P(X|Y=c) é uma normal (ou outra distribuição) com média e desvio padrão dados pelos dados de treino quando a classe de saída y=c
SVM Kernel RBF https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html Hiperparametros (C e gamma)
SVM kernel linear https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC Hiperparametro C
MLP https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier Hiperparametro (numero de neuronios na camada escondida - apenas 1 camada)
Knn https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier Hiperparametro K (impar)
Naive Bayes https://scikit-learn.org/stable/modules/classes.html#module-sklearn.naive_bayes Categorical, Gaussian, Bernulli (X_j binarios) Multinomial (X_j inteiros positivos) - sem hiperparametros