25 nov 2024
10:00 Defesa de Doutorado Integralmente à distância
Tema
Combating Disinformation with Explainable and Efficient Fact-checking
Aluno
Jing Yang
Orientador / Docente
Anderson de Rezende Rocha
Breve resumo
A Internet se tornou uma extensão do nosso mundo físico, onde quase todos estão conectados. Como resultado, uma pequena informação falsa pode se espalhar pelo mundo e arruinar a economia ou reputação de uma pessoa, empresa ou país. Devido ao impacto significativo da desinformação, muitos pesquisadores se dedicam a estudar a verificação automatizada de fatos. No entanto, soluções automatizadas de verificação de fatos levaram a preocupações de journalistas, que geralmente não confiam em decisões baseadas em máquinas. Além disso, muitos algoritmos mostraram problemas de inteligência artificial: eles não são explicáveis, podem aprender características espúrias e às vezes não podem generalizar. No entanto, os humanos também não podem fazer o trabalho sozinhos, pois os dados são gerados todos os dias e acumulados em uma velocidade acelerada, a dependência de máquinas se torna uma necessidade. Portanto, nesta tese, pretendemos preencher a lacuna entre verificadores de fatos humanos e algoritmos automatizados, para que eles possam se complementar para atingir escalabilidade e explicabilidade. Em termos de escalabilidade, desenvolvemos métodos para detecção de desinformação com agrupamento e sumarização de texto, o que reduziu drasticamente a redundância de dados brutos de mídia social. Também exploramos o uso eficiente de dados selecionando poucos dados anotados ou gerando dados sintéticos de poucos disparos para ajuste fino do modelo. Em termos de explicabilidade, introduzimos a resposta a perguntas no pipeline de verificação de fatos, o que pode identificar o local do erro de uma alegação. Além disso, para abordar a questão da falta de dados de explicação anotados, realizamos um estudo em larga escala sobre auto-racionalização (a tarefa de gerar uma previsão de rótulo e uma explicação de texto livre juntos) em cenários fora de distribuição (OOD). Para a falta de explicações de referência, propusemos uma métrica sem referência para a avaliação da explicação. No estudo, mostramos que os modelos podem aprender com um subconjunto muito pequeno de dados e generalizar comparativamente a modelos ajustados em todos os dados de treinamento. Também mostramos que, para a geração de explicações, a qualidade dos dados é um fator-chave para ter melhores explicações OOD. Mais adiante na frente da explicabilidade, investigamos a melhoria da auto-racionalização para conjuntos de dados de verificação de fatos do mundo real. Como ao encontrar um conjunto de dados com mais de três classes, a auto-racionalização falha em executar em novas classes. Assim, propomos novos métodos de adaptação de rótulos de duas etapas, que superaram os métodos de última geração (como GPT-4) em dois conjuntos de dados de verificação de fatos realistas. Esperamos que o trabalho desenvolvido nesta tese tenha um impacto positivo na implantação da verificação de fatos automatizada no mundo real.
Banca examinadora
Titulares:
Anderson de Rezende Rocha IC/UNICAMP
Agma Juci Machado Traina ICMC/USP
Roberto Marcondes Cesar Junior IME/USP
Paula Dornhofer Paro Costa FEEC/UNICAMP
Marcelo da Silva Reis IC/UNICAMP
Suplentes:
Esther Luna Colombini IC/UNICAMP
Fabio Augusto Faria ICT/UNIFESP
William Robson Schwartz DCC/UFMG