Defesa de Mestrado de Víctor Jesús Sotelo Chico

29 mar 2022

13:00 Defesa de Mestrado Integralmente a distância

Relacionado

Tema

Geração controlada de sentenças em linguagem natural para língua Portuguesa com base em arquiteturas de aprendizado baseadas em transformadores: Resultados no domínio de comércio eletrônico

Aluno

Víctor Jesús Sotelo Chico

Orientador / Docente

Julio Cesar dos Reis

Breve resumo

A produção de texto sintético é um dos principais desafios no Processamento de Linguagem Natural. As tarefas de geração de texto incluem tradução automática, criação de resumos e paráfrases. Os modelos de redes neurais tem sido aplicados para resolver essas tarefas. Recentemente, a introdução de Transformers ajudou no desenvolvimento de representações de linguagem e modelos generativos. Investigações existentes desenvolveram modelos pré-treinados, o que permite ajustá-los a tarefas específicas. Esses modelos pré-treinados são o estado da arte para representação de linguagem e geração de texto, proporcionando entendimento da linguagem. No entanto, o desenvolvimento de modelos para línguas não inglesas evolui mais lentamente. O desenvolvimento desses modelos pode permitir a produção de textos sintéticos. De fato, modelos generativos inexistentes para a língua não inglesa limitam as investigações para outras línguas. Esta dissertação de mestrado investiga como considerar modelos pré-treinados disponíveis para a língua Portuguesa e meios de adaptá-los para se obter geração automática de texto. Nosso modelo proposto foi desafiado em um contexto complexo (domínio de comércio eletrônico) em que a limitação de dados reduz a capacidade de treinamento de modelos robustos. Em particular, abordamos como aumentar dados para tratar semelhança semântica em questões em plataformas de comércio eletrônico. Sistemas capazes de reconhecer perguntas semelhantes podem ajudar a detectar perguntas frequentes (FAQs) e fornecer respostas automatizadas aos usuários. Nossa pesquisa alcançou as seguintes contribuições: 1) adaptação de modelos pré-treinados existentes para gerar texto controlado na língua Portuguesa; 2) ajustar um modelo de geração de sequência com base em semelhanças e diferenças semânticas; 3) técnicas de processamento de texto para se refinar a qualidade na geração de texto; e 4) estudo via nossos experimentos de problemas e limitações de dados em plataformas de comércio eletrônico. Resultados obtidos revelam a possibilidade de se criar sentenças sintéticas originais, condicionando-as por similaridade e dissimilaridade semântica. Isso provê avanços relevantes sobre como gerar sentenças sintéticas em linguagem natural para a língua Portuguesa e abre a possibilidade de aplicação como técnica de aumento de dados.

Banca examinadora

Titulares:

Julio Cesar dos Reis	IC/UNICAMP
Alexandre Mello Ferreira	FUNCAMP
Thiago Henrique Silva	DAINF/UTFPR

Suplentes:

Rafael Roque de Souza	IC/UNICAMP
Evandro Eduardo Seron Ruiz	FFCLRP/USP

Defesa de Mestrado de Víctor Jesús Sotelo Chico

Relacionado

Notícias

IC divulga o selecionado para PPPD – 3º Edital 2024

Concurso público de provas e títulos na área Arquitetura de Computadores tem data divulgada.

Laboratório de Sistemas de Computação (LSC) do IC-UNICAMP tem vaga para Pós-Doutor

Parceiros