Aula 3 - descrição de atributos

Jacques Wainer

Estatistica descritiva 1 variavel

Variáveis numericas

Outras medidas menos importantes

Medidas de dispersão

Desvio padrão

Interquartile range

Outliers

visão tradicional: dados errados (ruido na medida, erro de digitação)

visão mais moderna: casos excepcionais, ataques, começo de uma coisa nova, etc

Voce quer detectar outliers, talvez nao para remove-los.

Outliers “estragam” algumas medidas de agregação (media e desvio padrão)

medidas windowed

robust: insensível a outliers

Tecnica tradicional para detectar outliers:

Dados categóricos

moda o valor mais frequente.

Distribuições probabilisticas para 1 variavel

range -\infty a \infty

range 0 a \infty

Relaçao de 2 variáveis.

Correlação (linear ou de Pearson)

Relação linear entre 2 variavies é muito restrito

Um pouco de teoria da informação e probabilidade

dado uma distribuição de probabilidade

Entropia de uma distribuição é a informação media da distribuição

(media/valor esperado de f(x) quando x tem a distribuição P(x) é \int f(x) \; P(x) \; dx

H(p) = - \int \log(p) \; p \; dp

Distribuição de 2 variáveis

Dado 2 variáveis aleatórias: X,Y

P(X,Y) = P(X|Y)P(Y) = P(Y|X)P(X)

Informação mutua

https://en.wikipedia.org/wiki/Mutual_information

ou melhor ainda http://www.scholarpedia.org/article/Mutual_information

I(X;Y) = H(X) - H(X|Y)

diminuição da entropia do X dado que sabemos o valor de Y

informação mutua é uma extensão do conceito de correlação entre 2 variáveis.

Kolmorogov

A definição de Kolmorogov permite definir informação de algo/evento/mensagem sem se referir a distribuição de probabilidade de onde esse algo saiu.

A versão que informação que nos vimos é a de Shannon. Kolmorogov estende Shannon para os casos onde não temos informação sobre a distribuição de probabilidades e coisas muito modernas estão sendo elaboradas usando informação de Kolmorogov

Ver entrada “Absolute mutual information” na pagina da wikipedia de mutual information.