09 jul 2024
11:45 Defesa de Doutorado Utrecht University nos Países Baixos
Tema
Pseudo Rotulação e Classificação de Dados de Alta Dimensionalidade usando Analítica Visual
Aluno
Bárbara Caroline Benato
Orientador / Docente
Alexandre Xavier Falcão - Orientador em cotutela: Alexandru Cristian Telea
Breve resumo
Aprendizado de máquina (do inglês, Machine Learning (ML)) explora dados contendo de dezenas até dezenas de milhares de medições (dimensões) por amostra/exemplo. À medida que o número de dimensões e/ou amostras cresce, também cresce a dificuldade de compreensão do dado em questão e, relacionado a isso, a compreensão de como projetar modelos de ML que processam tais dados de forma eficaz para tarefas como classificação de dados. Visualização, e em particular analítica visual (Visual Analytics (VA)), tem emergido como uma das abordagens chave para ajudar profissionais no entendimento de dados de alta dimensionalidade e de tarefas de engenharia de ML. Tal tese ocupa-se em estudar diversas abordagens nas quais VA pode auxiliar ML (e vice-versa), como a seguir. O presente trabalho foca em uma técnica de visualização denominada redução de dimensionalidade (dimensionality reduction), ou projeção, a qual lida eficientemente e efetivamente com grandes quantidades de dados de alta dimensionalidade. Considerando ML, considera-se a tarefa de treinar um classificador típico para o contexto desafiador onde apenas uma pequena quantidade de rótulos (label) verdadeiros está disponível. Primeiramente, é proposta uma abordagem de pseudo rotulação que explora a habilidade de projeções em gerar um espaço de características reduzido com informação suficiente para melhorar a performance do aprendizado de características e do classificador ao longo das iterações. Como resultado, mostra-se que o espaço 2D gerado a partir de projeções pode capturar de forma satisfatória a estrutura do dado presente em altas dimensões de forma a auxiliar no projeto de modelos de aprendizado de características e classificação de alta performance. Além disso, propõe-se relacionar os conceitos de separação de dados DS, separação visual (VS) e performance do classificador (CP) através da pseudo rotulação e projeções de dados. Um espaço de características com alta DS é usado como entrada para computar projeções com alta VS. Tais projeções são, então, empregadas para realizar a pseudo rotulação com altas acurácias de propagação de rótulos. Por fim, esses rótulos são utilizados para treinar um classificador com uma alta CP. A implicação entre alta DS, alta VS e alta CP é mostrada para diferentes tipos de técnicas de projeção, as quais indicaram ser adequadas para a tarefa de engenharia de classificadores. Adicionalmente, a constatação anteriormente mencionada de que alta VS e alta CP estão correlacionadas é explorada para propôr uma métrica para acessar a VS de gráficos de dispersão 2D resultantes de técnicas de projeções. A métrica proposta computa a acurácia da propagação de rótulos no espaço projetado, o que torna a métrica mais simples e de mais rápida de executar. As altas acurácias de propagação mostram uma correlação com uma alta VS encontrada por seres humanos.Finalmente, as contribuições encontradas são agregadas a fim de incorporar o usuário no processo de engenharia de modelos de ML. É proposta uma ferramenta interativa de VA que auxilia o usuário na rotulação manual de amostras ao fornecer informação adicional referente a mapas de bordas de decisão de classificadores, erros de projeção, e erros de projeção inversa. Os resultados mostram que essa abordagem permite que o usuário possa rapidamente gerar novos rótulos para as amostras. Tais amostras rotuladas conduzem a maiores performances de classificação após algumas iterações apenas. Esta contribuição mostra que ambos, algoritmos e seres humanos, podem explorar projeções para a construção de melhores classificadores.
Banca examinadora
Titulares:
Alexandre Xavier Falcão IC/UNICAMP
Alexandru Cristian Telea Utrecht University
Anderson de Rezende Rocha IC/UNICAMP
Guido Costa Souza de Araújo IC/UNICAMP
Roberto de Alencar Lotufo FEEC/UNICAMP
Albert Ali Salah Utrecht University
Lynda Hardman Utrecht University
Yannis Velegrakis Utrecht University
Suplentes:
Não há