Defesa de Doutorado de Juan Felipe Hernández Albarracín

17 jan 2023

09:00 Defesa de Doutorado Integralmente a distância

Relacionado

Tema

Sobre o Dilema Espacial que Vincula Reencenação Profunda e Aprendizado de Representações Desemaranhadas em Vídeo

Aluno

Juan Felipe Hernández Albarracín

Orientador / Docente

Gerberth Adín Ramírez Rivera

Breve resumo

Reencenação de Vídeo (RV) consiste em animar o objeto de interesse numa imagem ou vídeo base, de acordo com o movimento descrito num vídeo a ser imitado. Técnicas modernas de RV necessariamente trabalham com uma noção de independência entre o objeto de interesse (também conhecido como conteúdo) e o seu movimento, de tal forma que rasgos visuais do conteúdo não vazem na hora de animar um outro objeto. Embora a forma de concretizar esta noção de independência seja bastante diversa na literatura, as abordagens no estado da arte têm um aspecto em comum: elas trabalham com representações em grandes espaços dimensionais que são redundantes em informação espacial, portanto o espaço da representação costuma ser maior do que o espaço original dos dados. Os modelos de RV que operam em espaços de representação de baixa dimensionalidade são naturalmente menos bem sucedidos, devido à quantidade de informação espacial que se perde. No entanto, eles produzem representações compactas que possuem propriedades interessantes, e que tornam eles mais convenientes para inúmeras tarefas, além de RV. Nesta tese, estudamos a capacidade de Modelos Generativos Profundos (MGP), baseados em Autocodificadores Variacionais, para obter uma RV de qualidade ao operar exclusivamente em espaços de representação de baixa dimensionalidade. Nós implementamos três modelos nos quais a noção de independência entre o conteúdo e o movimento é aplicada ao aprender representações desemaranhadas que codificam explicitamente esses dois fatores de variação. Cada modelo aplica diferentes vieses indutivos próprios de técnicas de supervisão fraca e auto-supervisão, assim como sinais de supervisão mais concretos pensados para informar o modelo sobre informação espacial, sem precisar de representações explícitas de grande dimensionalidade. A nossa contribuição é dupla: em primeiro lugar, desenhamos e implementamos MGPs que aprendem representações desemaranhadas, compactas e com carga semântica que separam informação de conteúdo da informação de movimento e, em segundo lugar, exploramos diversas técnicas para encarar o dilema de prescindir de informação espacial (e consequentemente de qualidade na RV) para promover a inferência de representações de qualidade. Os nossos resultados mostram que os modelos implementados são bem sucedidos não só em reduzir a diferença de desempenho entre modelos de espaço latente de baixa dimensionalidade e modelos no estado da arte em RV, mas também em obter representações que possam ser úteis em diversas tarefas de aprendizado automático.

Banca examinadora

Titulares:

Gerberth Adín Ramírez Rivera	IC/UNICAMP
Hélio Pedrini	IC/UNICAMP
Sandra Eliza Fontes de Avila	IC/UNICAMP
Erickson Rangel do Nascimento	DCC/UFMG
Cláudio Rosito Jung	INF/UFRGS

Suplentes:

Jacques Wainer	IC/UNICAMP
Marcos Medeiros Raimundo	IC/UNICAMP
Rodrigo Coelho Barros	PUCRS
Roberto Hirata Junior	IME/USP

Defesa de Doutorado de Juan Felipe Hernández Albarracín

Relacionado

Notícias

IC divulga o selecionado para PPPD – 3º Edital 2024

Concurso público de provas e títulos na área Arquitetura de Computadores tem data divulgada.

Laboratório de Sistemas de Computação (LSC) do IC-UNICAMP tem vaga para Pós-Doutor

Parceiros