08 set 2025
09:00 Defesa de Doutorado Auditório do IC3
Tema
Text-guided emergent multimodal and multilingual representation
Aluno
Diego Alysson Braga Moreira
Orientador / Docente
Sandra Eliza Fontes de Avila - Coorientador: Hélio Pedrini
Breve resumo
Com a expansão dos modelos de aprendizado profundo especializados, tem-se observado um crescimento no interesse em modelos multimodais. Porém, ainda são poucos os modelos e, geralmente, estes apresentam um alto custo de implementação e utilização. Estes altos valores decorrem da grande quantidade de dados e recursos computacionais necessários para os seus treinamentos. Outros modelos em paralelo buscam apresentar características multilinguais, o que apresenta desafios semelhantes. Nesta tese, buscamos desenvolver modelos multimodais e multilinguais, para texto, imagem e áudio, que apresentem alto desempenho, porém com baixo custo computacional. Para isto, utilizamos estratégias que diminuem a necessidade de dados e treinamentos massivos. Além disso, disponibilizamos múltiplos conjuntos de dados traduzidos e expandidos para diferentes línguas. Outra preocupação é o viés e fairness apresentados por nossos modelos. Temos como objetivo o treinamento com menos vieses, que possam englobar múltiplos grupos e línguas. Iniciamos nossos trabalhos através do modelo CAPIVARA, um modelo bimodal, texto-imagem, de treinamento contrastivo com foco na língua portuguesa, porém proposto para línguas de baixos recursos computacionais, como as já aplicadas, Hindi e Xhosa. Para o treinamento deste modelo, propomos a utilização de técnicas de redução de custo e a utilização de conjuntos melhor anotados, além da expansão dos conjuntos de treinamento, o que garantiu o estado da arte em tarefas "zero-shot'" com textos em português. Após os ótimos resultados obtidos neste trabalho, decidimos analisar o quanto enviesados os modelos contrastivos estavam, por meio do estudo em quatro diferentes grupos. Percebemos que para alguns grupos, estes modelos tendem a ter um maior viés. Também propomos o FairPIVARA, uma estratégia de redução de vieses e apresentamos boas melhorias, com apenas um pequeno custo relacionado à acurácia total. Para expandirmos os estudos do modelo anterior, propomos o modelo CACARA, onde adicionamos um novo modal, áudio, através de uma estratégia de aprendizado emergente, utilizando o modal de texto como âncora de aprendizado, além de propormos uma expansão da técnica LiT para o contexto multimodal. Adicionamos a capacidade linguística anteriormente não apresentada pelo modelo de áudio, para mais de 100 diferentes línguas, sem nenhuma necessidade de treinamento extra, alcançando desempenho R@1 superior em comparação com a maioria dos modelos multimodais estado da arte na literatura. Como uma forma de melhorar ainda mais os encoders acústicos, propomos também o CLAMP, modelo bimodal, áudio e texto, e multilíngue emergente. Também propomos uma nova estratégia de treinamento que busca utilizar o conhecimento das camadas intermediárias em redes Transformers para áudio. Acreditamos que contribuímos com modelos estado da arte, multimodal e multilíngue, que consideram línguas de baixos recursos computacionais, assim como uma maior preocupação com vieses e grupos minoritários. Buscamos reduzir os custos por meio de uma melhor qualidade de dados e técnicas de redução de custos computacionais.
Banca examinadora
Titulares:
Sandra Eliza Fontes de Avila | IC/UNICAMP |
Viviane Pereira Moreira | INF/UFRGS |
Thiago Alexandre Salgueiro Pardo | ICMC/USP |
Rodrigo Frassetto Nogueira | Maritaca AI |
Marcelo da Silva Reis | IC/UNICAMP |
Suplentes:
Paula Dornhofer Paro Costa | FEEC/UNICAMP |
Ariani Di Felippo | CECH/UFSCar |
Tatiane Nogueira Rios | IC/UFBA |