01 abr
13:30 Defesa de Doutorado Auditório do IC3
Tema
Aprimoramento do Preechimento de Imagens Baseado em Vision Transformers e Pencil-Sketch
Aluno
Jose Luis Flores Campana
Orientador / Docente
Hélio Pedrini - Coorientadora: Helena de Almeida Maia
Breve resumo
O preenchimento de imagens é uma técnica de visão computacional focada na restauração de regiões danificadas ou ausentes em uma imagem. Desde o advento das redes neurais profundas, principalmente das redes neurais convolucionais (CNNs), o preenchimento de imagens tem apresentado uma grande evolução na restauração de imagens danificadas. No entanto, os campos receptivos limitados das CNNs podem, por vezes, resultar em resultados não confiáveis devido à sua incapacidade de capturar o contexto global da imagem. Recentemente, Transformers têm sido utilizados no campo da visão computacional para lidar com o problema das CNNs para modelar o contexto global da imagem. Os Transformers podem aprender dependências de longo alcance através de mecanismos de self-attention e, devido a essa capacidade, os Transformers também podem ser essenciais para obter resultados realistas quando o conteúdo da imagem possui grandes regiões ausentes e cenas complexas. Porém, os custos quadráticos computacional e de memória nos Transformers tornam seu uso proibitivo em imagens de alta resolução e dispositivos restritos. Para contornar este problema, propomos uma arquitetura de Vision Transformers com hiperparâmetros variáveis que (i) subdivide os mapas de características em um número variável de recortes multiescala, (ii) distribui o mapa de características em um número variável de heads para equilibrar a complexidade da operação de self-attention, e (iii) inclui uma nova estratégia baseada na convolução em profundidade para reduzir o número de canais do mapa de características enviados para cada bloco Transformer. Além disso, para gerar resultados mais consistentes, algumas abordagens incorporaram ainda informações auxiliares para orientar a compreensão do modelo sobre as informações estruturais. Portanto, para lidar com o problema de inconsistência entre a estrutura e a textura, bem como evitar a geração de artefatos, desenvolvemos um novo método para preenchimento de imagens que utiliza informações de pencil-sketch para orientar a restauração de elementos estruturais, bem como de textura. Ao contrário de trabalhos anteriores que empregam arestas, linhas ou mapas de segmentação, aproveitamos o domínio do pencil-sketch e os recursos dos Transformers para aprender dependências de longo alcance para combinar adequadamente as informações de estrutura e textura, produzindo resultados mais consistentes. Conduzimos experimentos em três conjuntos de dados da literatura: Places2, CelebA e Paris StreetView. Nossos experimentos mostram que nosso método alcançou consistentemente os melhores resultados para as métricas FID e LPIPS no conjunto de dados CelebA. Obtivemos resultados competitivos para os conjuntos de dados Places2 e Paris StreetView em comparação com métodos do estado da arte. Além disso, nosso modelo apresentou o melhor desempenho em termos de tamanho do modelo, número de parâmetros e FLOPS. Os resultados qualitativos indicam que nosso método foi capaz de reconstruir conteúdo semântico, como partes de rostos humanos.
Banca examinadora
Titulares:
Hélio Pedrini IC/UNICAMP
Marcelo da Silva Reis IC/UNICAMP
Leo Sampaio Ferraz Ribeiro IC/UNICAMP
Samuel Botter Martins Banco Itaú
Luiz Maurílio da Silva Maciel ICE/UFJF
Suplentes:
Andre Santanche IC/UNICAMP
Fátima de Lourdes dos Santos Nunes Marques EACH/USP
Ronaldo Cristiano Prati CMCC/UFABC