22abr2026
13:00 Defesa de Mestrado Sala 53 do IC2
Tema
Uma análise quantitativa e comparativa de algoritmos de seleção de aprendizagem de máquina ativa baseados em fluxo de dados de passagem única
Aluno
Guilherme Silva Chacon
Orientador / Docente
Jacques Wainer
Breve resumo
A aprendizagem ativa é frequentemente apresentada como uma abordagem promissora para reduzir custos de rotulagem ao selecionar, de forma criteriosa, as instâncias mais informativas. Entretanto, os pressupostos clássicos que sustentam grande parte da pesquisa na área — como a disponibilidade integral do conjunto não rotulado, a possibilidade de revisitar observações passadas e a estabilidade da distribuição dos dados — raramente se verificam em ambientes reais de fluxo contínuo. Esta dissertação apresenta o maior estudo empírico já conduzido sobre aprendizagem ativa single-pass em cenários de data stream para tarefas de classificação tabular, avaliando doze estratégias representativas de consulta ao longo de oitenta e dois conjuntos de dados, seis modelos de aprendizado de máquina e diferentes limites de orçamento de rotulagem. Todos os experimentos foram realizados sob restrições rigorosas de fluxo contínuo, nas quais cada amostra só pode ser rotulada no momento de sua chegada e os modelos são atualizados incrementalmente à medida que novos rótulos se tornam disponíveis. Os resultados obtidos são notavelmente consistentes: na maioria dos cenários, nenhuma estratégia de aprendizagem ativa superou consistentemente os métodos de amostragem aleatória ou periódica, e nenhum teste estatístico produziu valores de p inferiores a 0,05. Modelos contemporâneos — em especial SVM e Random Forest — mostraram grande robustez à variabilidade introduzida pela seleção de amostras, reduzindo substancialmente o impacto de funções de aquisição mais complexas. A análise detalhada evidencia que a instabilidade da incerteza nas fases iniciais do fluxo, a presença de concept drift, as restrições impostas pelo gerenciamento do orçamento de rotulagem e a impossibilidade de revisitar dados antigos limitam severamente a eficácia das estratégias atuais de aprendizagem ativa em cenários single-pass. Esses achados questionam a suposição amplamente difundida de que a aprendizagem ativa melhora sistematicamente o desempenho dos modelos e sugerem que, para dados tabulares em fluxo, abordagens simples podem ser não apenas suficientes, mas superiores em termos práticos.
Banca examinadora
Titulares:
Jacques Wainer IC/UNICAMP
Vinícius Mourão Alves de Souza PPGIa/PUCPR
Marcelo da Silva Reis IC/UNICAMP
Suplentes:
Marcos Medeiros Raimundo IC/UNICAMP
Ronaldo Cristiano Prati CMCC/UFABC