12 dez 2022
09:00 Defesa de Doutorado Integralmente a distância
Tema
Uma Análise de Espaço Latente em Modelos Encoder-Decoder para Melhorar o Aprendizado de Representação para Tarefa de Segmentação Semântica em Imagens
Aluno
Darwin Danilo Saire Pilco
Orientador / Docente
Gerberth Adín Ramírez Rivera
Breve resumo
Nos últimos anos, o uso de Deep Neural Networks (DNNs) como um poderoso extrator de características tem levado a diversas melhorias em diversas áreas do conhecimento com resultados notáveis, principalmente em diversas tarefas de visão computacional. Uma dessas tarefas é a Segmentação Semântica (SS), a qual é uma classificação de rotulagem ao nível de píxel, ou seja, cada píxel é rotulado como pertencente a uma determinada classe semântica. A segmentação semântica também tem várias aplicações em uma ampla gama de campos, como robótica, mapeamento, ou compreensão de cena, nas quais os rótulos de nível de píxel são de importância primordial. O uso de DNN mostrou melhorias significativas no SS, embora isso trouxesse o problema de perda de precisão espacial, muitas vezes produzida nos limites dos objetos segmentados. Por outro lado, a abordagem multitarefa usa tarefas relacionadas para melhorar o desempenho da tarefa principal; no entanto, como escolher essas tarefas relacionadas não é um problema trivial. Nesta tese, propomos desenvolver um estudo do espaço latente (mapas de características) em modelos hourglass (codificador-decodificador) usando uma abordagem multitarefa, complementando a tarefa SS com tarefas de detecção de bordas, contorno semântico e transformação de distância (tarefas com base na borda dos objetos). Observamos que ao compartilhar um espaço latente comum, as tarefas complementares podem produzir representações mais robustas que podem aprimorar os rótulos semânticos. Além disso, exploramos a influência de tarefas baseadas em contornos no espaço latente, bem como seu impacto nos resultados finais da SS. A partir da análise do espaço latente influenciado pela multitarefa, conseguimos criar um modelo que aborda o problema da perda de precisão espacial, fornecendo uma estrutura interna para as representações das características enquanto extraímos uma representação global que suporta a anterior. Para ajustar a estrutura interna, durante o treinamento, prevemos um modelo de Mistura Gaussiana a partir dos dados, que, combinados com as skip connections e a etapa de decodificação, ajudam a evitar vieses indutivos errados. Nossos resultados demonstram a eficácia do aprendizado em um ambiente multitarefa para modelos hourglass, melhorando o estado da arte sem nenhum refinamento de pós-processamento. Também mostramos a melhoria da tarefa de SS ao fornecer ambas representações de aprendizagem (global e local) com um comportamento de agrupamento e combinando-as. Finalmente, comparamos resultados quantitativos e qualitativos no benchmark dos conjuntos de dados CamVid, Freiburg Forest, Cityscape e Synthia.
Banca examinadora
Titulares:
Gerberth Adín Ramírez Rivera IC/UNICAMP
Hélio Pedrini IC/UNICAMP
Alexandre Xavier Falcão IC/UNICAMP
Roberto Hirata Junior IME/USP
Moacir Antonelli Ponti ICMC/USP
Suplentes:
Sandra Eliza Fontes de Avila IC/UNICAMP
Anderson de Rezende Rocha IC/UNICAMP
Guillermo Cámara Chávez DECOM/UFOP
Ronaldo Cristiano Prati CMCC/UFABC