média
mediana (divide os valores e 50% acima e 50% abaixo)
valores minimos e maximos
quantiles por exemplo, divide os valores em 25% abaixo e 75% acima, 50/50 (mediana) e 75/25 ou outras subdivisões 0/100 (minimo), 10/90, etc.
histograma https://en.wikipedia.org/wiki/Histogram
skew - o quanto é não simetrico em volta da media - https://en.wikipedia.org/wiki/Skewness
kurtosis ou excess Kurtosis - o quanto uma distribuição simetrica cae mais rapido que a gaussiana ou tem um pico mais evidente https://en.wikipedia.org/wiki/Kurtosis
coisas naturais de forma geral seguem distribuição gaussiana (altura de pessoas)
coisas sociais de forma geral seguem distribuições com skewness positivo e baixa curtose. (salarios, riqueza, vews no youtube, likes no instagram, citações de artigos, etc)
Desvio padrão
desvio padrão (\sigma)= raiz quadrada da variança
variança é a média dis erros quadrados (X-\mu)^2
desvio padrão esta nas unidades dos dados
Interquartile range
IQR = 75% quantile - 25% quantile
mais imune a outliers
visão tradicional: dados errados (ruido na medida, erro de digitação)
visão mais moderna: casos excepcionais, ataques, começo de uma coisa nova, etc
Voce quer detectar outliers, talvez nao para remove-los.
Outliers “estragam” algumas medidas de agregação (media e desvio padrão)
medias vs medianas
desvio padrao vs IQR
medidas windowed
robust: insensível a outliers
Tecnica tradicional para detectar outliers:
moda o valor mais frequente.
quantidade de dados de cada valor.
não há medidas de dispersão tradicionais.
gaussiana, Normal, https://en.wikipedia.org/wiki/Gaussian_function 2 parametros; media e desvio padrao
student t https://en.wikipedia.org/wiki/Student%27s_t-distribution simetrica com kurtosis negativa - mais dados outliers. outro parametro t. t>30 é similar a gaussiana
Cauchy - (t-student com t=1) decai tão devagar que nao tem média (infinita) e nao tem desvio padrão. https://en.wikipedia.org/wiki/Cauchy_distribution
uniforme https://en.wikipedia.org/wiki/Continuous_uniform_distribution
log normal e^{N(\mu,\sigma)} - para valores monetários (salarios, preços, etc).
exponencial https://en.wikipedia.org/wiki/Exponential_distribution
Correlação (linear ou de Pearson)
mede quão linear é a relaçao de 2 variaveis (ver figuras em https://en.wikipedia.org/wiki/Correlation
se as 2 variaveis sao independentes então a correlação é 0.
correlação varia de 1 a -1.
o mesmo valor de correlacão pode indicar relações muito diferentes entre as variavies. (ver figura na wikipedia)
Relação linear entre 2 variavies é muito restrito
o quadrado da correlação é chamado de R^2 ou coeficiente de determinação.
R^2 é 1 - SS_{reg}/SS_{tot} onde SS_{tot} é a variancia total do y (SS = sum squared)
SS_{reg} é a variancia do erro do y quando considera-se a melhor regressão linear de x em y. Ou seja a variancia de y_i - f(x_i) onde f é a melhor função linear que permite prever y dado x.
R^2 é a proporção da variança (variabilidade) de y que é explicada pelo x
dado uma distribuição de probabilidade
voce define a informação de um evento com probabilidade p como -\log p
informação é uma medida de surpresa
quanto menor o p maior a informação
informação é aditiva. a informação de 2 eventos independentes com probabilidade p e q é a soma das informações dos eventos
qualquer base para logaritmos é aceitável. Tradicionalmente usa-se base 2 (e a medida de informação é bits), base e (medida em nats$ ou base 10 (medida em hartleys*)
Entropia de uma distribuição é a informação media da distribuição
(media/valor esperado de f(x) quando x tem a distribuição P(x) é \int f(x) \; P(x) \; dx
H(p) = - \int \log(p) \; p \; dp
Dado 2 variáveis aleatórias: X,Y
P(X,Y) joint distribution - para cada valor de X e Y obtém a probabilidade https://en.wikipedia.org/wiki/Joint_probability_distribution
P(X) é a projeção da joint distribution na coordenada x. Para cada valor de X - uma probabilidade
P(X') = \int P(X',Y) dY - para um X' , soma ou integra os valores de P(X',Y) para todos os valores de Y.
P(X|Y) é a distribuição de X condicional no Y. Ou seja, para um valor fixo de Y (Y’) o corte de P(X,Y) para aquele valor de Y’ (P(X,Y')) mas normalizado apropriadamente para que a integral no X de 1.
teorema de bayes
P(X,Y) = P(X|Y)P(Y) = P(Y|X)P(X)
variáveis independentes P(X,Y) = P(X) P(Y)
variáveis independentes P(X|Y) = P(X) - sabendo o valor de Y não modifica nada o que sabemos sobre X
https://en.wikipedia.org/wiki/Mutual_information
ou melhor ainda http://www.scholarpedia.org/article/Mutual_information
I(X;Y) = H(X) - H(X|Y)
diminuição da entropia do X dado que sabemos o valor de Y
se as variavies são independentes I(X;Y) = 0 - não diminue nada a entropia de X
se as variavies são totalmente dependentes - se eu sei o valor de Y eu sei com certeza o valor de X (pode ser mais de 1). Entao a mutual information é I(X;Y) = H(X)
de vez em quando usa-se uma medida normalizada (I(X;Y)/H(X))
se a relação entre X e Y são lineares, mutual information é a propria correlação (isso nao é 100% certo segundo a pagina da wikipedia - de X e Y sao gaussianas, a mutual information é uma função da correlação mas não igual).
informação mutua é uma extensão do conceito de correlação entre 2 variáveis.
A definição de Kolmorogov permite definir informação de algo/evento/mensagem sem se referir a distribuição de probabilidade de onde esse algo saiu.
A versão que informação que nos vimos é a de Shannon. Kolmorogov estende Shannon para os casos onde não temos informação sobre a distribuição de probabilidades e coisas muito modernas estão sendo elaboradas usando informação de Kolmorogov
Ver entrada “Absolute mutual information” na pagina da wikipedia de mutual information.