17 jan 2023
09:00 Defesa de Doutorado Integralmente a distância
Tema
Sobre o Dilema Espacial que Vincula Reencenação Profunda e Aprendizado de Representações Desemaranhadas em Vídeo
Aluno
Juan Felipe Hernández Albarracín
Orientador / Docente
Gerberth Adín Ramírez Rivera
Breve resumo
Reencenação de Vídeo (RV) consiste em animar o objeto de interesse numa imagem ou vídeo base, de acordo com o movimento descrito num vídeo a ser imitado.
Técnicas modernas de RV necessariamente trabalham com uma noção de independência entre o objeto de interesse (também conhecido como conteúdo) e o seu movimento, de tal forma que rasgos visuais do conteúdo não vazem na hora de animar um outro objeto.
Embora a forma de concretizar esta noção de independência seja bastante diversa na literatura, as abordagens no estado da arte têm um aspecto em comum: elas trabalham com representações em grandes espaços dimensionais que são redundantes em informação espacial, portanto o espaço da representação costuma ser maior do que o espaço original dos dados.
Os modelos de RV que operam em espaços de representação de baixa dimensionalidade são naturalmente menos bem sucedidos, devido à quantidade de informação espacial que se perde.
No entanto, eles produzem representações compactas que possuem propriedades interessantes, e que tornam eles mais convenientes para inúmeras tarefas, além de RV.
Nesta tese, estudamos a capacidade de Modelos Generativos Profundos (MGP), baseados em Autocodificadores Variacionais, para obter uma RV de qualidade ao operar exclusivamente em espaços de representação de baixa dimensionalidade.
Nós implementamos três modelos nos quais a noção de independência entre o conteúdo e o movimento é aplicada ao aprender representações desemaranhadas que codificam explicitamente esses dois fatores de variação.
Cada modelo aplica diferentes vieses indutivos próprios de técnicas de supervisão fraca e auto-supervisão, assim como sinais de supervisão mais concretos pensados para informar o modelo sobre informação espacial, sem precisar de representações explícitas de grande dimensionalidade.
A nossa contribuição é dupla: em primeiro lugar, desenhamos e implementamos MGPs que aprendem representações desemaranhadas, compactas e com carga semântica que separam informação de conteúdo da informação de movimento e, em segundo lugar, exploramos diversas técnicas para encarar o dilema de prescindir de informação espacial (e consequentemente de qualidade na RV) para promover a inferência de representações de qualidade.
Os nossos resultados mostram que os modelos implementados são bem sucedidos não só em reduzir a diferença de desempenho entre modelos de espaço latente de baixa dimensionalidade e modelos no estado da arte em RV, mas também em obter representações que possam ser úteis em diversas tarefas de aprendizado automático.
Banca examinadora
Titulares:
Gerberth Adín Ramírez Rivera | IC/UNICAMP |
Hélio Pedrini | IC/UNICAMP |
Sandra Eliza Fontes de Avila | IC/UNICAMP |
Erickson Rangel do Nascimento | DCC/UFMG |
Cláudio Rosito Jung | INF/UFRGS |
Suplentes:
Jacques Wainer | IC/UNICAMP |
Marcos Medeiros Raimundo | IC/UNICAMP |
Rodrigo Coelho Barros | PUCRS |
Roberto Hirata Junior | IME/USP |