Exercício 7

Data de entrega: 21/11, as 7:00 (da manha).

Este exercicio é sobre anomalias e series temporais, e é aberto. Eu vou propor um problema para voces mas eu nao sei a solucao, eu gostaria que voces explorassem suas ideias e intuicoes.

Nao há resposta certa ou errada, so ha alternativas que dao e nao dao mais ou menos certo e nao dar certo NAO é um problema - é a realidade de uma pesquisa/exploracao.

Queremos detectar regioes numa serie temporal que sao anomalas, obviamente sem uma definicao do que é anomalo!. As series estao abaixo.

Serie temporal 1 dados aqui

Serie temporal 2 dados aqui

Serie temporal 3 dados aqui

Serie temporal 4 dados aqui

Serie temporal 5 dados aqui

Queremos detectar anomalias locais, ou seja, o trecho da serie temporal é anomala em relacao aos outros trechos, e nao o valor em particular que é anomalo (detectar valores anomalos funcionaria para a serie 1 mas nao para as outras).

A ideia central é definir um trecho da serie como N pontos seguidos, e representar cada trecho. Eu acho que apenas a media e desvio padrao dos valores no trecho, ou media, maximo e minimo sera suficiente. Assim, cada trecho sera representado por 2 (media e desvio padrao) ou 3 (media maximo minimo) dimensões.

Duas questoes a serem tratadas sao qual o valor de N e quanto de interssecao entre os trechos.

Com a representacao de cada trecho, o problema é encotrar o/os trechos anomalos. E aqui as varias alternativas discutidas em classe sao aplicaveis: distancia ao k-esimo vizinho, dados em subespacos diferentes, dados em regiao de baixa densidade, etc.

Discuta a sua solução para o problema, e mostre o resultado do seu algoritimo nas series temporais de 1 a 4. Pense numa forma de mostrar os trechos anonalos no plot das series temporais. Finalmente rode o seu algoritimo na serie temporal 5 (onde nao é nada claro o que é anomalo e nao anaomalo) e mostre e discuta os resultados.


Last modified: Sun Nov 6 12:15:45 BRST 2016