Ate 17/11 as 8 da manha
O objetivo desta tarefa é usar algoritmos e métricas de clusterização da familia de k-means. Normalmente clusterização, especialmente se usada para KDD exige uma interpretação dos resultados. Mas a disciplina nao esta centrando na interpretação dos resultados (e o instrutor não sabe como avaliar interpretações). Desta forma esta tarefa acaba centro centrada em usar os algoritmos e menos em interpretar os resultados (a não ser por decidir qual k usar).
Leia este dataset que é um dataset de 1000 dados com 13 atributos. Os dados nao precisam ser normalizados.
Discuta usando essas medidas qual é o k que voce escolheria - em princípio nao há uma “resposta certa” para essa questão. Mas alguns K são mais razoáveis que os outros.
usando o k escolhido no item anterior, rode o GMM
GMM nao produz uma clustrerização tradicional onde cada dado é associado a UM cluster. Para dado, GMM associa um probabilidade do dado pertencer a cada um dos clusters. Para usar as medidas de concordancia entre clusterizações, as clusterizações precisam