26 jun 2025
09:00 Defesa de Doutorado Integralmente a distância
Tema
From Virtual to Real: Convolutional Neural Network-Based Monocular Depth Estimation Trained Only on Synthetic Datasets
Aluno
Luís Gustavo Lorgus Decker
Orientador / Docente
Hélio Pedrini - Coorientadora: Helena de Almeida Maia
Breve resumo
A estimação de profundidade monocular -- a tarefa de inferir informações de profundidade a partir de uma única imagem RGB -- é um problema fundamental em visão computacional, com aplicações cruciais em robótica, navegação autônoma, realidade aumentada e compreensão de cenas. Apesar dos avanços significativos impulsionados por técnicas de aprendizado profundo, os métodos de ponta geralmente dependem de grandes conjuntos de dados reais com anotações densas, cuja aquisição e rotulagem são tarefas trabalhosas e de alto custo. Essa dependência representa um gargalo importante, especialmente em ambientes dinâmicos ou críticos, nos quais a obtenção de profundidade real de forma precisa é inviável. Nesta tese, propomos uma nova abordagem baseada em aprendizado profundo para estimação de profundidade monocular que elimina a necessidade de supervisão com dados reais durante o treinamento. Nossa proposta utiliza uma arquitetura totalmente convolucional com um decodificador do tipo U-Net e uma rede ConvNeXt, treinada exclusivamente em um conjunto diverso de bases de dados sintéticas. O uso de dados sintéticos permite acesso a mapas de profundidade perfeitos e controle detalhado sobre os parâmetros das cenas, viabilizando um treinamento em larga escala e evitando viéses específicos de domínio presentes em dados reais. Adicionalmente, empregamos uma função de perda invariante a escala e deslocamento para promover uma melhor generalização entre domínios. A avaliação é realizada em um cenário de zero-shot -- sem qualquer ajuste fino -- utilizando dois conjuntos de dados reais amplamente utilizados: KITTI (cenas urbanas externas) e NYU Depth V2 (ambientes internos). O método proposto apresenta desempenho competitivo, com um erro relativo absoluto (AbsRel) de 0.063 no KITTI e 0.099 no NYU, apesar de ter sido treinado exclusivamente com dados sintéticos. Esses resultados evidenciam a eficácia da estratégia de generalização entre domínios sintético-real e indicam que é possível obter estimação de profundidade monocular de alta qualidade sem utilizar supervisão com dados reais. Nossos achados abrem caminho para o desenvolvimento de sistemas de estimação de profundidade escaláveis e livres de anotações para aplicações reais diversas.
Banca examinadora
Titulares:
Hélio Pedrini IC/UNICAMP
Luiz Maurílio da Silva Maciel ICE/UFJF
Ronaldo Cristiano Prati CMCC/UFABC
André Santanchè IC/UNICAMP
Rafael de Oliveira Werneck IC/UNICAMP
Suplentes:
Aurea Rossy Soriano Vargas UTEC/Peru
David Menotti Gomes DInf/UFPR
Moacir Antonelli Ponti ICMC/USP