MO432 -capitulo 11
Quase todo do classificador faz duas tarefas
O número (grau de confiança) de vez em quando pode ser interpretado como uma probabilidade (entre 0 e 1 e todos somam 1)
O texto diz que na maioria das aplicações o que voce deveria querer é esse número (e boa qualidade deste número) e não necessariamente a decisão de que classe o dado pertence.
Softmax é uma formula que traduz números de confiança para uma probabilidade.
Well calibrated probabilities - LEIA ISSO DEPOIS - A ideia é que se o numero se parece com uma probabilidade, voce quer que ele realmente tenha algo a ver com frequencias, etc - isso é chamado de calibração (calibrated)
Presenting Class Probabilities - pode pular
Dado que o classificador fez uma previsão.
Vamos assumir que são só duas classes (problema binário)
Uma das classes é mais “central”/“importante” que a outra. No livro ela é chamada de “event” mas o nome mais comum é classe positiva.
Tabela 11.1 é super importante - matriz de confusão
as linhas são o que o classificador disse
as colunas é o correto
TP true positive
FP false positive
TN true negative
FN false negative
False Positivo - Falso Positivo - o classificador disse que era POSITIVO e ele estava ERRADO (false)
acc = \frac{TN+TP}{N}
mas acurácia pode enganar se os dados são desbalanceado. Se a classe positiva so tem 1 a cada 100 dados, prever sempre o negativo tem um acurácia de 0.99!
kappa leva em consideração classificadores aleatórios ou fixos. Por exemplo sempre retorne a classe mais provável, ou retorne as classes com probabilidade igual a sua frequências.
kappa acima de 0.5 parece ser bom(?)
seNsitividade é a acuracia do Positivo
esPecificidade é a acurácia do Negatvo
sens = \frac{TP}{TP+FN}
FN é um dado que o classificador disse que é negativo mas ele errou e portanto é realmente um positivo!
PPV = \frac{TP}{TP+FP}
False positive rate = FP de verdade negativo que eu errei = taxa de erro dos negativos!
precision e recall so usa os positivos
recall = acurácia dos positivos = sensitivity
precision = o quanto você acredita numa saída positiva = PPV
tabela com todas essas medidas
ROC
Se o classificador calcula as “probabilidades” voce pode escolher qualquer valor entre 0 e 1 para decidir se é positivo.
Os classificadores normalmente definem internamente o threshold (0.5 no caso binario)
para cada valor do threshold compute a sensibilidade e a especificidade. Esses valores (sens x 1-especificidade) é a curva ROC (fig 11.6)
entenda pela animação porque a linha diagonal é um classificador aleatorio e porque o um degrau é o melhor classificador
AUC
area abaixo da curva ROC
auc é meio insensível a desbalanco das classes.
auc mede a separação das distribuições dos
auc esta relacionado com proporção de pares onde a probabilidade de um negativo é maior que a probabilidade de um positivo
Lift curve - leia depois
Outras medidas que sao relacionadas com probabilidades