24fev2026
10:00 Defesa de Mestrado Sala 85 do IC2
Tema
Simplificação de Comandos em Língua Portuguesa para Assistentes de Voz por meio de Modelos de Linguagem
Aluno
Fabrício Ferreira da Silva
Orientador / Docente
Hélio Pedrini
Breve resumo
A crescente utilização de interfaces de voz transformou a interação humano-computador, prometendo acesso intuitivo à tecnologia. No entanto, persiste uma dissonância significativa entre a linguagem natural espontânea utilizada pelos usuários (frequentemente prolixa, contextual e ambígua) e a rigidez dos sistemas tradicionais de reconhecimento de comandos, que falham ao interpretar intenções complexas. Este trabalho apresenta e avalia uma arquitetura de reescrita semântica baseada em Grandes Modelos de Linguagem (do inglês, Large Language Models - LLMs), desenhada para atuar como uma camada intermediária de tradução entre a fala do usuário e a execução da tarefa. A metodologia fundamentou-se em um desenho experimental comparativo utilizando o modelo gpt-4o-mini. Foram confrontadas a abordagem de Engenharia de Comandos contra três estratégias de ajuste fino supervisionado. Para tal, foram curados manualmente três conjuntos de dados de treinamento com volumes progressivos (50, 150 e 500 exemplos), estruturados para ensinar ao modelo o padrão de simplificação desejado — convertendo solicitações verbosas em comandos diretos — sem comprometer suas capacidades de raciocínio. Um conjunto de validação independente, não visto durante o treinamento, foi elaborado especificamente para testar desafios linguísticos críticos, como negação lógica, inferência semântica e retenção de parâmetros em frases com múltiplas condições. Empregou-se a técnica LLM-as-a-Judge para atribuir notas em escala Likert (1-5) aos critérios de Preservação da Intenção, Naturalidade e Fluência e Eficiência da Simplificação. Adicionalmente, validou-se a aplicabilidade da solução em cenário realista: as frases de validação foram gravadas em áudio e submetidas a um ambiente com ruído de fundo controlado (60-70 dB), sendo posteriormente transcritas por um sistema de ASR (Google Speech-to-Text). A métrica taxa de erro de palavras (do inglês, Word Error Rate - WER) foi calculada para mensurar o impacto das imperfeições da transcrição no desempenho final dos modelos de reescrita. Os resultados revelaram um paradoxo do ajuste fino: o aumento do volume de dados não garantiu melhoria linear. Enquanto o modelo com 150 exemplos atingiu o ponto ótimo de especialização semântica, o modelo com 500 exemplos apresentou degradação severa, incluindo alucinações e perda de capacidade lógica em tarefas de negação. As contribuições deste estudo residem na evidência empírica do equilíbrio entre capacidade de inferência geral e especialização do modelo, demonstrando que a curadoria de pequenas base de dados é mais crítica do que o volume para o alinhamento de assistentes virtuais.
Banca examinadora
Titulares:
| Hélio Pedrini | IC/UNICAMP |
| Rafael de Oliveira Werneck | IC/UNICAMP |
| César Henrique Córdova Quiroz | PUC-Campinas |
Suplentes:
| André Santanchè | IC/UNICAMP |
| Moacir Antonelli Ponti | ICMC/USP |