23 ago 2023
09:00 Defesa de Mestrado Auditório do IC3
Tema
Melhoramento das Informações Visuais em Tarefas de Questões baseadas em Imagens com Dados em Grafos de Cena Utilizando Aprendizagem Autossupervisionada.
Aluno
Bruno César de Oliveira Souza
Orientador / Docente
Gerberth Adín Ramírez Rivera - Coorientador: Hélio Pedrini
Breve resumo
A interseção entre visão e linguagem desperta um interesse significativo, uma vez que existe um foco crescente na integração perfeita entre o reconhecimento visual e a capacidade de raciocínio. Os grafos de cena surgiram como uma ferramenta útil para tarefas multimodais de imagem e linguagem, demonstrando um desempenho impressionante em tarefas como a Resposta a Perguntas Visuais (VQA, na sigla em inglês).
No entanto, os métodos atuais que utilizam grafos de cena idealizados e anotados costumam enfrentar dificuldades para generalizar quando utilizam grafos de cena previstos extraídos diretamente
das imagens.
Neste estudo, abordamos esse desafio ao introduzir o framework SelfGraphVQA. Nossa abordagem envolve a extração de um grafo de cena de uma imagem de entrada usando um gerador de grafo de cena pré-treinado e, em seguida, aprimora as informações visuais por meio de técnicas de autossupervisão. Ao utilizar a autossupervisão, nosso método aprimora a utilização das representações de grafo nas tarefas de VQA, eliminando a necessidade de dados de anotação dispendiosos e potencialmente tendenciosos. Além disso, utilizamos técnicas de aumento de imagem para criar visões alternativas dos grafos de cena extraídos, permitindo a aprendizagem de embeddings conjuntos por meio de uma abordagem contrastiva que otimiza o conteúdo informativo em suas representações.
Em nossas experimentações, exploramos três estratégias contrastivas distintas: focadas nos nós, focadas nos grafos e regularização de equivariância de permutação, todas adaptadas ao processamento de grafos de cena. Por meio de avaliações empíricas, demonstramos a eficácia dos grafos de cena extraídos em tarefas de VQA, superando as limitações de depender apenas de grafos de cena anotados. Além disso, ilustramos que nossa abordagem de autossupervisão aprimora significativamente o desempenho geral dos modelos de VQA, enfatizando a importância das informações visuais. Como resultado, nosso framework oferece uma solução mais prática e eficiente para tarefas de VQA que
dependem de grafos de cena para abordar perguntas complexas de raciocínio.
Em suma, nosso estudo demonstra a eficácia do uso de técnicas de autossupervisão para aprimorar a utilização de grafos de cena em tarefas de VQA. Ao contornar as limitações dos grafos de cena idealizados e anotados, promovemos uma abordagem mais robusta e prática para incorporar informações visuais na compreensão multimodal. O framework SelfGraphVQA contribui para o avanço da integração perfeita entre visão e linguagem, desbloqueando novas possibilidades para melhorar o reconhecimento e o raciocínio no campo das tarefas de imagem e linguagem.
Banca examinadora
Titulares:
Hélio Pedrini | IC/UNICAMP |
Thiago Alexandre Salgueiro Pardo | ICMC/USP |
Marcelo da Silva Reis | IC/UNICAMP |
Suplentes:
Alexandre Xavier Falcão | IC/UNICAMP |
Ronaldo Cristiano Prati | CMCC/UFABC |