04 dez 2025
09:00 Defesa de Doutorado sala 85 do IC2
Tema
Exploring AI Explaining, Contrastive and Adversarial Methods for Weakly Supervised Semantic Segmentation
Aluno
Lucas Oliveira David
Orientador / Docente
Zanoni Dias - Coorientador: Hélio Pedrini
Breve resumo
Embora a segmentação semântica seja uma tarefa fundamental em visão computacional, seu progresso é limitado pela dependência de anotações densas em nível de pixel, que são custosas e demoradas de se obter. A Segmentação Semântica Fracamente Supervisionada (do inglês Weakly Supervised Semantic Segmentation, WSSS) mitiga essa limitação ao aprender predições em nível de pixel a partir de sinais de supervisão mais fracos, como rótulos em nível de imagem, mapas de saliência ou outras formas de anotações pouco granulares. Um dos principais desafios da WSSS reside na geração de pseudo-rótulos confiáveis, normalmente derivados de Class Activation Maps (CAMs). Originalmente concebidas como ferramentas de explicabilidade, as CAMs tornaram-se um componente essencial em soluções WSSS, fornecendo indícios iniciais de localização que orientam os modelos de segmentação. Entretanto, esses indícios são frequentemente incompletos, ruidosos e enviesados para as regiões mais discriminativas da imagem, o que ressalta a necessidade de estratégias de aprendizado mais robustas e fundamentadas. Esta tese avança o estado da arte em WSSS por meio de quatro contribuições principais. Primeiro, introduz o MinMax-CAM, que aprimora a precisão das CAMs em cenários multirrótulo ao contrastar gradientes de classes-alvo e não-alvo, além do emprego de Kernel Usage Regularization (KUR), resultando em mapas de localização mais nítidos e fiéis. Segundo, propõe uma estratégia de aprendizado adversarial e contrastivo para aprendizado de representações em cenários de aprendizado com poucos exemplos (few-shot learning, FSL), demonstrando a eficácia desses métodos em aumentar a robustez sob condições de escassez de dados. Terceiro, apresenta o P-NOC, uma estratégia adversarial na qual um gerador apaga progressivamente regiões discriminativas enquanto um discriminador se adapta para descobrir indícios complementares, produzindo pseudo-rótulos de segmentação mais completos e com fronteiras mais precisas. Por fim, CSRM é proposto: um modelo relacional com supervisão cruzada que explora conjuntamente pseudo-rótulos confiáveis e não confiáveis em nível de pixel por meio de aprendizado contrastivo, melhorando significativamente o desempenho de segmentação em relação ao benchmark em conjuntos de dados de segmentação semântica amplamente utilizados na literatura.
Banca examinadora
Titulares:
| Zanoni Dias | IC/UNICAMP |
| Jurandy Gomes de Almeida Junior | DComp-So/UFSCar |
| Otávio Augusto Bizetto Penatti | Samsung |
| Marcelo da Silva Reis | IC/UNICAMP |
| Alexandre Mello Ferreira | EEP |
Suplentes:
| Marcos Medeiros Raimundo | IC/UNICAMP |
| Fabricio Aparecido Breve | DEMAC/UNESP |
| José Ramon Trindade Pires | Maritaca AI |