Defesa de Mestrado de Bruno César de Oliveira Souza

23 ago 2023

09:00 Defesa de Mestrado Auditório do IC3

Relacionado

Tema

Melhoramento das Informações Visuais em Tarefas de Questões baseadas em Imagens com Dados em Grafos de Cena Utilizando Aprendizagem Autossupervisionada.

Aluno

Bruno César de Oliveira Souza

Orientador / Docente

Gerberth Adín Ramírez Rivera - Coorientador: Hélio Pedrini

Breve resumo

A interseção entre visão e linguagem desperta um interesse significativo, uma vez que existe um foco crescente na integração perfeita entre o reconhecimento visual e a capacidade de raciocínio. Os grafos de cena surgiram como uma ferramenta útil para tarefas multimodais de imagem e linguagem, demonstrando um desempenho impressionante em tarefas como a Resposta a Perguntas Visuais (VQA, na sigla em inglês). No entanto, os métodos atuais que utilizam grafos de cena idealizados e anotados costumam enfrentar dificuldades para generalizar quando utilizam grafos de cena previstos extraídos diretamente das imagens. Neste estudo, abordamos esse desafio ao introduzir o framework SelfGraphVQA. Nossa abordagem envolve a extração de um grafo de cena de uma imagem de entrada usando um gerador de grafo de cena pré-treinado e, em seguida, aprimora as informações visuais por meio de técnicas de autossupervisão. Ao utilizar a autossupervisão, nosso método aprimora a utilização das representações de grafo nas tarefas de VQA, eliminando a necessidade de dados de anotação dispendiosos e potencialmente tendenciosos. Além disso, utilizamos técnicas de aumento de imagem para criar visões alternativas dos grafos de cena extraídos, permitindo a aprendizagem de embeddings conjuntos por meio de uma abordagem contrastiva que otimiza o conteúdo informativo em suas representações. Em nossas experimentações, exploramos três estratégias contrastivas distintas: focadas nos nós, focadas nos grafos e regularização de equivariância de permutação, todas adaptadas ao processamento de grafos de cena. Por meio de avaliações empíricas, demonstramos a eficácia dos grafos de cena extraídos em tarefas de VQA, superando as limitações de depender apenas de grafos de cena anotados. Além disso, ilustramos que nossa abordagem de autossupervisão aprimora significativamente o desempenho geral dos modelos de VQA, enfatizando a importância das informações visuais. Como resultado, nosso framework oferece uma solução mais prática e eficiente para tarefas de VQA que dependem de grafos de cena para abordar perguntas complexas de raciocínio. Em suma, nosso estudo demonstra a eficácia do uso de técnicas de autossupervisão para aprimorar a utilização de grafos de cena em tarefas de VQA. Ao contornar as limitações dos grafos de cena idealizados e anotados, promovemos uma abordagem mais robusta e prática para incorporar informações visuais na compreensão multimodal. O framework SelfGraphVQA contribui para o avanço da integração perfeita entre visão e linguagem, desbloqueando novas possibilidades para melhorar o reconhecimento e o raciocínio no campo das tarefas de imagem e linguagem.

Banca examinadora

Titulares:

Hélio Pedrini	IC/UNICAMP
Thiago Alexandre Salgueiro Pardo	ICMC/USP
Marcelo da Silva Reis	IC/UNICAMP

Suplentes:

Alexandre Xavier Falcão	IC/UNICAMP
Ronaldo Cristiano Prati	CMCC/UFABC

Defesa de Mestrado de Bruno César de Oliveira Souza

Relacionado

Notícias

IC divulga o selecionado para PPPD – 3º Edital 2024

Concurso público de provas e títulos na área Arquitetura de Computadores tem data divulgada.

Laboratório de Sistemas de Computação (LSC) do IC-UNICAMP tem vaga para Pós-Doutor

Parceiros