26 fev 2025
10:00 Defesa de Mestrado Auditório do IC3
Tema
Classificação de histórias e coerência textual: Uma abordagem com inclusão de estrutura retórica e sintática em modelos de linguagem
Aluno
Luiz Fellipe Machi Pereira
Orientador / Docente
Sandra Eliza Fontes de Avila - Coorientadoras: Nádia Félix Felipe da Silva e Helena de Almeida Maia
Breve resumo
O surgimento de modelos de linguagem mais sofisticados, como GPT-3, BERT e seus derivados, revolucionaram as interações de sistemas computacionais e humanos. Com o tempo, sistemas com modelos maiores, com respostas melhores e interfaces amigáveis, como ChatGPT e Copilot, os tornaram ainda mais populares. Esses modelos são amplamente utilizados em aplicações que vão desde assistentes virtuais até geração automatizada de conteúdo, oferecendo respostas fluidas e contextualizadas. No entanto, um desafio persistente reside na capacidade de garantir que os textos gerados sejam não apenas gramaticalmente corretos, mas também semanticamente coerentes. A incoerência textual — como contradições internas, quebras na progressão temática ou falhas na estrutura lógica — pode comprometer a utilidade e a confiabilidade desses sistemas, especialmente em cenários críticos, como atendimento ao cliente, educação ou divulgação de informações. Identificar incoerências em textos gerados antes de disponibilizá-los aos usuários é um problema complexo. A fluência superficial dos modelos de linguagem muitas vezes mascara deficiências estruturais, criando a ilusão de qualidade em narrativas que, na realidade, carecem de lógica ou coesão. Essa limitação torna-se ainda mais relevante quando consideramos aplicações que demandam precisão narrativa, como a geração de textos com temática jornalística, roteiros ou materiais educativos. Além disso, a escassez de bases de dados anotadas com informações sobre coerência textual dificulta o treinamento e a avaliação de sistemas automatizados para essa tarefa. Anotar manualmente textos quanto à sua coerência exige perícia linguística e tempo, uma vez que a coerência envolve múltiplas camadas, como a organização de argumentos, definição de temática e contexto de mundo, aspectos que não são trivialmente quantificáveis. Diante desse cenário, este estudo propõe uma metodologia para realizar a classificação de histórias coerentes usando modelos de linguagem e comparar seu desempenho a de um modelo em que é feita a integração de informações sintáticas e retóricas. A abordagem central baseia-se na incorporação de símbolos especiais derivados de conhecimentos advindos de teorias da linguística. Para validar a proposta, construímos um corpus de histórias, denominado H.IAAC CommonStories, anotado automaticamente com relações retóricas e categorias sintáticas, com narrativas coerentes e versões incoerentes delas. Esse corpus foi utilizado para treinar e avaliar um modelo de linguagem adaptado, cuja robustez foi impulsionada ao estender o conhecimento do modelo. Além da avaliação no corpus desenvolvido, realizamos testes zero-shot em uma base de dados brasileira de desinformação (FakeTrue.BR), visando explorar a hipótese de que a coerência textual pode servir como indicador indireto para detecção de desinformação em cenários offline. Os resultados preliminares foram satisfatórios, sugerindo que textos incoerentes ou com estruturas retóricas fragmentadas tendem a correlacionar-se com conteúdo potencialmente enganoso, especialmente em contextos onde a verificação externa de fatos é limitada.
Banca examinadora
Titulares:
Sandra Eliza Fontes de Avila IC/UNICAMP
Fabíola Souza Fernandes Pereira FACOM/UFU
Marcos Medeiros Raimundo IC/UNICAMP
Suplentes:
Leandro Aparecido Villas IC/UNICAMP
Tiago Timponi Torrent FALE/UFJF