29 mar 2022
13:00 Defesa de Mestrado Integralmente a distância
Tema
Geração controlada de sentenças em linguagem natural para língua Portuguesa com base em arquiteturas de aprendizado baseadas em transformadores: Resultados no domínio de comércio eletrônico
Aluno
Víctor Jesús Sotelo Chico
Orientador / Docente
Julio Cesar dos Reis
Breve resumo
A produção de texto sintético é um dos principais desafios no Processamento de Linguagem Natural. As tarefas de geração de texto incluem tradução automática, criação de resumos e paráfrases. Os modelos de redes neurais tem sido aplicados para resolver essas tarefas. Recentemente, a introdução de Transformers ajudou no desenvolvimento de representações de linguagem e modelos generativos. Investigações existentes desenvolveram modelos pré-treinados, o que permite ajustá-los a tarefas específicas. Esses modelos pré-treinados são o estado da arte para representação de linguagem e geração de texto, proporcionando entendimento da linguagem. No entanto, o desenvolvimento de modelos para línguas não inglesas evolui mais lentamente. O desenvolvimento desses modelos pode permitir a produção de textos sintéticos. De fato, modelos generativos inexistentes para a língua não inglesa limitam as investigações para outras línguas.
Esta dissertação de mestrado investiga como considerar modelos pré-treinados disponíveis para a língua Portuguesa e meios de adaptá-los para se obter geração automática de texto. Nosso modelo proposto foi desafiado em um contexto complexo (domínio de comércio eletrônico) em que a limitação de dados reduz a capacidade de treinamento de modelos robustos. Em particular, abordamos como aumentar dados para tratar semelhança semântica em questões em plataformas de comércio eletrônico. Sistemas capazes de reconhecer perguntas semelhantes podem ajudar a detectar perguntas frequentes (FAQs) e fornecer respostas automatizadas aos usuários.
Nossa pesquisa alcançou as seguintes contribuições: 1) adaptação de modelos pré-treinados existentes para gerar texto controlado na língua Portuguesa; 2) ajustar um modelo de geração de sequência com base em semelhanças e diferenças semânticas; 3) técnicas de processamento de texto para se refinar a qualidade na geração de texto; e 4) estudo via nossos experimentos de problemas e limitações de dados em plataformas de comércio eletrônico. Resultados obtidos revelam a possibilidade de se criar sentenças sintéticas originais, condicionando-as por similaridade e dissimilaridade semântica. Isso provê avanços relevantes sobre como gerar sentenças sintéticas em linguagem natural para a língua Portuguesa e abre a possibilidade de aplicação como técnica de aumento de dados.
Banca examinadora
Titulares:
Julio Cesar dos Reis | IC/UNICAMP |
Alexandre Mello Ferreira | FUNCAMP |
Thiago Henrique Silva | DAINF/UTFPR |
Suplentes:
Rafael Roque de Souza | IC/UNICAMP |
Evandro Eduardo Seron Ruiz | FFCLRP/USP |