11 out 2024
09:00 Defesa de Mestrado Integralmente à distancia
Tema
Análise de abordagens auto-supervisionadas para ajuste fino de modelos de linguagem para tarefas em português
Aluno
Gian Franco Joel Condori Luna
Orientador / Docente
Marcelo da Silva Reis - Coorientador: Didier Augusto Vega Oliveros
Breve resumo
As organizações muitas vezes enfrentam a limitação de ter uma pequena quantidade de dados rotulados para calibrar e refinar os seus modelos de linguagem (LM, de language models) em contextos específicos. Esta escassez de dados anotados traduz-se num desafio significativo para o desenvolvimento e melhoria do LM, uma vez que a qualidade e a quantidade dos dados são fatores críticos no desempenho e generalização do modelo. Por outro lado, a aquisição ou criação de dados rotulados caracteriza-se pela sua elevada exigência em termos de tempo e recursos financeiros; este processo complicado e caro pode representar uma barreira significativa para as organizações, limitando a sua capacidade de implementar soluções eficazes de aprendizagem de máquina adaptadas às suas necessidades específicas. A literatura demonstra que problemas semelhantes foram resolvidos por meio de ajuste fino auto-supervisionado, utilizando diferentes abordagens de pré-treinamento. Todavia, até o nosso conhecimento, inexistia a descrição e a avaliação de protocolos desse tipo de treinamento para LMs em português. Dessa forma, nesta dissertação propomos como adaptar o protocolo de pré-treinamento do LM em português BERTimbau para um procedimento de ajuste fino auto-supervisionado, acompanhado de uma avaliação de como este procedimento pode afetar a generalização e tarefas downstream quando se tem dados não rotulados. Realizamos vários experimentos com três conjuntos de dados de diferentes contextos, nos quais descongelamos diferentes números de camadas no modelo e utilizamos diferentes ajustes na taxa de aprendizagem, determinando assim um regime de treinamento ideal para o protocolo de ajuste fino auto-supervisionado. Os resultados utilizando análise de sentimentos como tarefa downstream, com dados rotulados dos mesmos conjuntos de dados, indicaram que descongelar apenas a última camada já traz bons resultados, o que permitiria usuários com recursos computacionais limitados obterem ótimos resultados com o método. Além disso, foi destacada a eficácia do ajuste fino auto-supervisionado em conjuntos de dados maiores, sugerindo o seu potencial para pesquisas futuras em LMs pré-treinados mais avançados.
Banca examinadora
Titulares:
Marcelo da Silva Reis IC/UNICAMP
Andre Santanche IC/UNICAMP
Thiago Alexandre Salgueiro ICMC/USP
Suplentes:
Rafael de Oliveira Werneck IC/UNICAMP
Ronaldo Cristiano Prati CMCC/UFABC