Defesa de Doutorado de Jose Luis Flores Campana

01 abr 2024

13:30 Defesa de Doutorado Sala 85 do IC2

Relacionado

Tema

Aprimoramento do Preechimento de Imagens Baseado em Vision Transformers e Pencil-Sketch

Aluno

Jose Luis Flores Campana

Orientador / Docente

Hélio Pedrini - Coorientadora: Helena de Almeida Maia

Breve resumo

O preenchimento de imagens é uma técnica de visão computacional focada na restauração de regiões danificadas ou ausentes em uma imagem. Desde o advento das redes neurais profundas, principalmente das redes neurais convolucionais (CNNs), o preenchimento de imagens tem apresentado uma grande evolução na restauração de imagens danificadas. No entanto, os campos receptivos limitados das CNNs podem, por vezes, resultar em resultados não confiáveis devido à sua incapacidade de capturar o contexto global da imagem. Recentemente, Transformers têm sido utilizados no campo da visão computacional para lidar com o problema das CNNs para modelar o contexto global da imagem. Os Transformers podem aprender dependências de longo alcance através de mecanismos de self-attention e, devido a essa capacidade, os Transformers também podem ser essenciais para obter resultados realistas quando o conteúdo da imagem possui grandes regiões ausentes e cenas complexas. Porém, os custos quadráticos computacional e de memória nos Transformers tornam seu uso proibitivo em imagens de alta resolução e dispositivos restritos. Para contornar este problema, propomos uma arquitetura de Vision Transformers com hiperparâmetros variáveis que (i) subdivide os mapas de características em um número variável de recortes multiescala, (ii) distribui o mapa de características em um número variável de heads para equilibrar a complexidade da operação de self-attention, e (iii) inclui uma nova estratégia baseada na convolução em profundidade para reduzir o número de canais do mapa de características enviados para cada bloco Transformer. Além disso, para gerar resultados mais consistentes, algumas abordagens incorporaram ainda informações auxiliares para orientar a compreensão do modelo sobre as informações estruturais. Portanto, para lidar com o problema de inconsistência entre a estrutura e a textura, bem como evitar a geração de artefatos, desenvolvemos um novo método para preenchimento de imagens que utiliza informações de pencil-sketch para orientar a restauração de elementos estruturais, bem como de textura. Ao contrário de trabalhos anteriores que empregam arestas, linhas ou mapas de segmentação, aproveitamos o domínio do pencil-sketch e os recursos dos Transformers para aprender dependências de longo alcance para combinar adequadamente as informações de estrutura e textura, produzindo resultados mais consistentes. Conduzimos experimentos em três conjuntos de dados da literatura: Places2, CelebA e Paris StreetView. Nossos experimentos mostram que nosso método alcançou consistentemente os melhores resultados para as métricas FID e LPIPS no conjunto de dados CelebA. Obtivemos resultados competitivos para os conjuntos de dados Places2 e Paris StreetView em comparação com métodos do estado da arte. Além disso, nosso modelo apresentou o melhor desempenho em termos de tamanho do modelo, número de parâmetros e FLOPS. Os resultados qualitativos indicam que nosso método foi capaz de reconstruir conteúdo semântico, como partes de rostos humanos.

Banca examinadora

Titulares:

Hélio Pedrini	IC/UNICAMP
Marcelo da Silva Reis	IC/UNICAMP
Leo Sampaio Ferraz Ribeiro	IC/UNICAMP
Samuel Botter Martins	Banco Itaú
Luiz Maurílio da Silva Maciel	ICE/UFJF

Suplentes:

Andre Santanche	IC/UNICAMP
Fátima de Lourdes dos Santos Nunes Marques	EACH/USP
Ronaldo Cristiano Prati	CMCC/UFABC

Defesa de Doutorado de Jose Luis Flores Campana

Relacionado

Notícias

IC divulga o selecionado para PPPD – 3º Edital 2024

Concurso público de provas e títulos na área Arquitetura de Computadores tem data divulgada.

Laboratório de Sistemas de Computação (LSC) do IC-UNICAMP tem vaga para Pós-Doutor

Parceiros