13 mai 2022
14:00 Defesa de Doutorado Auditório
Tema
Melhorando Funções de Perda e Utilização de Características para Estimação Autossupervisionada de Profundidade de Imagem Única a Partir de Vídeos Monoculares
Aluno
Julio César Mendoza Bobadilla
Orientador / Docente
Hélio Pedrini
Breve resumo
Nesta tese, abordamos o problema de estimação de um mapa de profundidade denso a partir de uma única imagem de entrada. Focamos em abordagens autossupervisionadas que usam a reconstrução de vistas como uma tarefa auxiliar e usam vídeos monoculares para treinamento. Como a reconstrução das vistas depende de encontrar correspondências de pixels precisas entre as vistas em uma cena, um desafio importante é evitar que estimações de correspondências incorretas reduzam a eficácia da reconstrução de vistas baseada em perda para convergir em uma solução que tenha um desempenho adequado na estimação de profundidade. Estimações incorretas de correspondência de pixels podem ocorrer devido a vários motivos. Por exemplo, alguns pixels não têm correspondências de pixel verdadeiras, como pixels localizados em regiões com oclusão/desoclusão devido ao movimento da câmera ou do objeto. Outros pixels parecem ter várias correspondências, como pixels localizados em regiões homogêneas ou de pouca textura. Além disso, alguns pixels têm correspondência verdadeira em visualizações adjacentes com representações de características inconsistentes devido à reflexão e à refração que dificultam a correspondência. Para contornar esse desafio, desenvolvemos vários mecanismos para reduzir a influência de pixels com estimações de correspondência incorretas. Primeiramente, propusemos uma heurística baseada na consistência de profundidade para diminuir a influência dos pixels na função de perda. Além disso, propusemos um mecanismo de atenuação de perda adaptativa para reduzir a influência de pixels com estimações de correspondências incorretas com base na incerteza aleatória. Por fim, propusemos uma função de perda de consistência adaptativa que penaliza a diferença de várias representações de características considerando apenas as correspondências com erro mínimo de reprojeção. Nossos resultados demonstram que as melhorias propostas para a função de perda podem aumentar a precisão do nosso modelo autossupervisionado de estimação de profundidade de imagem única. Outro desafio está relacionado à observação de que otimizar um modelo com reconstrução de vistas como tarefa auxiliar não implica que o modelo seja otimizado para a estimação de profundidade. Em resposta a esse desafio, propusemos mecanismos para alavancar as representações de características aprendidas pelo modelo. Inicialmente, propusemos um mecanismo de compartilhamento de características que permite que o modelo de movimento da câmera aproveite as características profundas aprendidas pelo modelo por meio de conexões laterais. Além disso, a função de perda de consistência adaptativa leva em conta o mapa de coordenadas 3D, as características profundas e as representações de cores com reprojeção mínima. Por fim, propusemos um método para realizar a autodestilação para fornecer um sinal de aprendizado adicional para treinamento. Esse método é o resultado da adaptação e avaliação de estratégias de aplicação de consistência para realizar a autodestilação por meio da consistência de predição. Nossos resultados mostram que as melhorias na forma como aproveitamos as representações de características e a autodestilação podem melhorar o desempenho na estimação autossupervisionada de profundidade de uma única imagem.
Banca examinadora
Titulares:
Hélio Pedrini IC/UNICAMP
Ronaldo Cristiano Prati CMCC/UFABC
Guillermo Camara Chavez DECOM/UFOP
Romis Ribeiro de Faissol Attux FEEC/UNICAMP
Allan da Silva Pinto LNLS
Suplentes:
André Santanchè IC/UNICAMP
Esther Luna Colombini IC/UNICAMP
Moacir Antonelli Ponti ICMC/USP