Exercício 4
Data de entrega 24/4 em aula
Use os dados aqui para o projeto de clusterização.
- Faça a clusterizacao usando o k-means, com k=2 ate k=8. Para estes valores de k, use pelo menos duas medidas relativas
de qualidade de cluster (por exemplo, variancia intercluster, Dunn,
silhueta, ou outros) para descidir qual é o melhor k. Vamos
chamar este k de km (k melhor).
- Plote os clusters para o km e para um outro valor bem diferente
(k=2 ou k=8). Verifique as diferencas entre as 2 clusterizacoes.
- Para o seu valor de km, gere 3 clusterizacoes com inicializações
diferentes. Compare os clusteres. O que a estabilidade ou não
estabilidade dos clusteres te diz.
- Para o seu valor de km, gere uma mistura de gaussianas (GMM)
usando EM. Compare os centros das gaussianas com o centro dos seus
clusters.
- Use a clusterização hierarquica com "single linkage",
"average linkage" e "complete linkage". Corte as arvores resultantes
em km clusters. Compare estas tres particoes com o resultado do
k-means.