30 jun 2025
14:00 Defesa de Doutorado sala 85 do IC2
Tema
Semantic Representations based on Language Models
Aluno
Fagner Leal Pantoja
Orientador / Docente
Claudia Maria Bauzer Medeiros - Coorientador: André Santanchè
Breve resumo
Os modernos Modelos de Linguagem (e.g., GPT e BERT) fornecem novas abordagens para Representação de Semântica Latente, encapsulando em um espaço vetorial os padrões estatísticos que estão registrados de forma implícita em um dado texto de referência. Entretanto, apesar das pesquisas associadas, ainda existem lacunas quanto à definição do significado semântico em um contexto que interligue conceitos computacionais com conceitos linguísticos. Com o objetivo de preencher estas lacunas, neste trabalho projetamos e analisamos 2 tipos de representações semânticas, correspondendo às duas principais contribuições da tese: um Modelos de Tópicos cujo objetivo é evidenciar padrões estatísticos que estejam latentes em um dado corpus de entrada; e uma representação semântica explicitamente anotada por agentes humanos utilizando nossa ferramenta Harena Semantics. Ambas contribuições usam como pano de fundo dados reais públicos do domínio clínico. Nossa primeira contribuição é uma representação estatística baseada em modelos de tópicos. A modelagem de tópicos é um problema de longa data na área de Recuperação de Informação, com resultados promissores utilizando modelos de linguagem. Nesta mesma linha, nossa abordagem ABT (Attention-based Topics) produz tópicos por meio de uma Agregação Hierárquica aplicada sobre as sentenças contidas em um dado corpus de referência, o qual é representado em um espaço vetorial inferido pelo modelo de linguagem BERT. Observamos que os tópicos produzidos exibem (1) bons valores segundo a métrica Coerência de Tópicos; e (2) diferentes graus de generalização/especificidade de acordo com o modelo de linguagem utilizado como base. Os resultados de nossa avaliação não encontraram uma associação óbvia entre a qualidade visual dos tópicos e sua qualidade medida pela métrica Coerência de Tópicos. A segunda contribuição corresponde a um tipo especial de anotações semânticas, materializada na ferramenta Harena Semantics, cujo objetivo é possibilitar anotação de recursos semânticos diretamente no conteúdo de construções textuais. Um diferencial de nossa abordagem é a superposição de anotações adicionadas por humanos com anotações inferidas por máquina através de um modelo de linguagem especializado no Reconhecimento de Entidades Nomeadas. Nossos resultados preliminares sugerem um potencial para engajamento de criadores de recursos semânticos. Concluímos com uma discussão sobre os avanços alcançados pela atual revolução do processamento de linguagem natural em um contexto multidisciplinar. Nossas investigações confirmam que os atuais modelos de linguagem não conseguem, em teoria, aprender o significado real das palavras, pois estes carecem de uma parte essencial da informação semântica que encontra-se fora do escopo dos dados de treinamento (i.e., informações que não estão registradas por meio de sinal linguístico). A ausência dessa parte essencial do significado da informação impede que modelos de linguagem realizem de forma satisfatória determinadas tarefas (por exemplo, modelagem de tópicos) que demandam características inerentemente humanas (e.g., intenção comunicativa, criatividade, afeto, memória sensorial, interação social) para completa realização.
Banca examinadora
Titulares:
Claudia Maria Bauzer Medeiros IC/UNICAMP
Ronaldo dos Santos Mello INE/UFSC
Ricardo Rodrigues Ciferri CCET/UFSCar
Ariadne Maria Brito Rizzoni Carvalho IC/UNICAMP
Hélio Pedrini IC/UNICAMP
Suplentes:
Eliane Martins IC/UNICAMP
Luciano Antonio Digiampietri EACH/USP
Fátima de Lourdes dos Santos Nunes Marques EACH/USP