27 fev 2025
13:30 Defesa de Doutorado Por videoconferência
Tema
Uma Abordagem Eficaz para a Estimativa de Profundidade Estéreo Autossupervisionada
Aluno
Alexandre Ribeiro Lopes
Orientador / Docente
Hélio Pedrini - Coorientador: Roberto Medeiros de Souza
Breve resumo
A estimativa de profundidade é um componente crucial para entender a geometria tridimensional (3D) de uma cena. Nos últimos anos, redes neurais convolucionais abriram novas possibilidades nesse campo. Os sistemas de estimativa de profundidade são tipicamente categorizados como estéreos ou monoculares, utilizando imagens ou quadros de vídeo como entrada, e podem ser treinados utilizando técnicas supervisionadas ou não supervisionadas. Abordagens não supervisionadas surgiram devido ao alto custo dos sensores de profundidade e ao processo trabalhoso de refinar os mapas de profundidade de referência gerados por esses sensores para produzir dados para treinamento. Métodos não supervisionados ou autossupervisionados oferecem vantagens significativas para diversas aplicações comerciais, como sistemas de carros autônomos, drones e outros veículos autônomos, principalmente porque eliminam a necessidade de sensores caros para construir mapas de profundidade densos do ambiente. Além disso, confiar exclusivamente em imagens permite que as empresas utilizem bancos de dados de imagens preexistentes para treinar seus modelos. Por exemplo, fabricantes de carros focados em veículos autônomos podem se beneficiar facilmente dessas técnicas, pois já possuem milhares de veículos equipados com câmeras em produção, fornecendo uma fonte abundante de dados para o ajuste fino de algoritmos autossupervisionados sem intervenção humana. Nesse contexto, a estimativa de profundidade autossupervisionada estéreo se destaca como uma solução eficaz, pois elimina a necessidade de sensores e, em vez disso, utiliza um sistema de câmeras conhecido para estimar a disparidade ou profundidade de cada elemento capturado pelo par de câmeras. Essa abordagem simplifica o problema em comparação com sistemas que dependem de sequências monoculares e, geralmente, alcança um desempenho superior. Pesquisas recentes apresentam arquiteturas baseadas em Transformers, que oferecem resultados de métrica que atingem o estado da arte, mas exibem tempos de execução ruins. Consequentemente, a maioria desses modelos é impraticável para aplicações do mundo real. Nesta tese, propomos uma nova abordagem autossupervisionada convolucional que supera as redes neurais convolucionais e os modelos de Transformers existentes, equilibrando o custo computacional. A arquitetura proposta, denominada CCNeXt, integra um extrator de características moderno com um novo módulo de atenção cruzada epipolar em janelas no codificador, complementado por um reprojeto do decodificador de estimativa de profundidade. Nossos experimentos mostram que o CCNeXt alcança métricas competitivas nos dados de teste do KITTI Eigen Split, sendo 10,18x mais rápido do que o melhor modelo atual. Também atingimos resultados superiores em todas as métricas nos conjuntos de dados KITTI Eigen Split Improved Ground Truth e Driving Stereo, quando comparado às técnicas recentemente propostas. Além disso, comparamos nossos modelos com modelos supervisionados monoculares e ainda assim obtivemos resultados satisfatórios, apesar de não usarmos informações de disparidade ou profundidade durante o treinamento.
Banca examinadora
Titulares:
Hélio Pedrini IC/UNICAMP
David Menotti Gomes INF/UFPR
Ronaldo Cristiano Prati CMCC/UFABC
Marcelo da Silva Reis IC/UNICAMP
Rafael de Oliveira Werneck IC/UNICAMP
Suplentes:
Alexandre Mello Ferreira EEP
William Robson Schwartz DCC/UFMG
Moacir Antonelli Ponti ICMC/USP