Defesa de Doutorado de Darwin Danilo Saire Pilco

12 dez 2022

09:00 Defesa de Doutorado Integralmente a distância

Relacionado

Tema

Uma Análise de Espaço Latente em Modelos Encoder-Decoder para Melhorar o Aprendizado de Representação para Tarefa de Segmentação Semântica em Imagens

Aluno

Darwin Danilo Saire Pilco

Orientador / Docente

Gerberth Adín Ramírez Rivera

Breve resumo

Nos últimos anos, o uso de Deep Neural Networks (DNNs) como um poderoso extrator de características tem levado a diversas melhorias em diversas áreas do conhecimento com resultados notáveis, principalmente em diversas tarefas de visão computacional. Uma dessas tarefas é a Segmentação Semântica (SS), a qual é uma classificação de rotulagem ao nível de píxel, ou seja, cada píxel é rotulado como pertencente a uma determinada classe semântica. A segmentação semântica também tem várias aplicações em uma ampla gama de campos, como robótica, mapeamento, ou compreensão de cena, nas quais os rótulos de nível de píxel são de importância primordial. O uso de DNN mostrou melhorias significativas no SS, embora isso trouxesse o problema de perda de precisão espacial, muitas vezes produzida nos limites dos objetos segmentados. Por outro lado, a abordagem multitarefa usa tarefas relacionadas para melhorar o desempenho da tarefa principal; no entanto, como escolher essas tarefas relacionadas não é um problema trivial. Nesta tese, propomos desenvolver um estudo do espaço latente (mapas de características) em modelos hourglass (codificador-decodificador) usando uma abordagem multitarefa, complementando a tarefa SS com tarefas de detecção de bordas, contorno semântico e transformação de distância (tarefas com base na borda dos objetos). Observamos que ao compartilhar um espaço latente comum, as tarefas complementares podem produzir representações mais robustas que podem aprimorar os rótulos semânticos. Além disso, exploramos a influência de tarefas baseadas em contornos no espaço latente, bem como seu impacto nos resultados finais da SS. A partir da análise do espaço latente influenciado pela multitarefa, conseguimos criar um modelo que aborda o problema da perda de precisão espacial, fornecendo uma estrutura interna para as representações das características enquanto extraímos uma representação global que suporta a anterior. Para ajustar a estrutura interna, durante o treinamento, prevemos um modelo de Mistura Gaussiana a partir dos dados, que, combinados com as skip connections e a etapa de decodificação, ajudam a evitar vieses indutivos errados. Nossos resultados demonstram a eficácia do aprendizado em um ambiente multitarefa para modelos hourglass, melhorando o estado da arte sem nenhum refinamento de pós-processamento. Também mostramos a melhoria da tarefa de SS ao fornecer ambas representações de aprendizagem (global e local) com um comportamento de agrupamento e combinando-as. Finalmente, comparamos resultados quantitativos e qualitativos no benchmark dos conjuntos de dados CamVid, Freiburg Forest, Cityscape e Synthia.

Banca examinadora

Titulares:

Gerberth Adín Ramírez Rivera	IC/UNICAMP
Hélio Pedrini	IC/UNICAMP
Alexandre Xavier Falcão	IC/UNICAMP
Roberto Hirata Junior	IME/USP
Moacir Antonelli Ponti	ICMC/USP

Suplentes:

Sandra Eliza Fontes de Avila	IC/UNICAMP
Anderson de Rezende Rocha	IC/UNICAMP
Guillermo Cámara Chávez	DECOM/UFOP
Ronaldo Cristiano Prati	CMCC/UFABC

Defesa de Doutorado de Darwin Danilo Saire Pilco

Relacionado

Notícias

IC divulga o selecionado para PPPD – 3º Edital 2024

Concurso público de provas e títulos na área Arquitetura de Computadores tem data divulgada.

Laboratório de Sistemas de Computação (LSC) do IC-UNICAMP tem vaga para Pós-Doutor

Parceiros