08 mai 2025
09:00 Defesa de Mestrado Sala 85 do IC2
Tema
Descrição de Radiografias de Tórax Baseada em Modelos Leves de Linguagem para uma Análise Acessível de Imagens Médicas
Aluno
Talles Viana Vargas
Orientador / Docente
André Santanchè - Coorientador: Hélio Pedrini
Breve resumo
Grandes modelos de linguagem (LLMs) têm sido amplamente empregados em diversas tarefas de processamento de texto, incluindo a geração de conteúdo, tradução ou correção textual. Na visão computacional, esses modelos possuem aplicações na geração de legendas a partir de imagens e em sistemas de perguntas e respostas visuais (VQA). Na área de imagens médicas, embora existam estudos propondo diagnósticos automatizados de diferentes modalidades (raios-X, ressonância magnética, tomografia computadorizada), poucos trabalhos exploram o potencial das LLMs nesse contexto. Os estudos existentes frequentemente priorizam a melhora de desempenho utilizando modelos com dezenas de bilhões de parâmetros, resultando em soluções computacionalmente custosas. Dessa forma, este trabalho avaliou a utilização de LLMs pré-treinados com um número relativamente menor de parâmetros para gerar descrições de imagens de raio-X torácico no contexto médico. O principal objetivo deste trabalho foi desenvolver uma arquitetura leve adotando LLM, buscando utilizar modelos pré-treinados para reduzir custos computacionais sem comprometer significativamente a qualidade dos resultados. Avaliamos múltiplas escolhas para a arquitetura, incluindo a seleção de um modelo de visão computacional ideal (U-Net vs. PSPNet) e a inicialização do módulo Q-Former com pesos do domínio (BioClinicalBERT). Nossos experimentos foram conduzidos utilizando métricas de eficácia clínica (CE) - precisão, revocação e medida F1 - e métricas de geração de linguagem natural (NLG), como BLEU e ROUGE. A análise qualitativa das amostras de texto geradas revelou que o modelo produz descrições detalhadas e clinicamente relevantes, frequentemente superando a brevidade dos laudos de referência. No entanto, alucinações ocasionais - frases sem sentido ou irrelevantes - foram observadas, particularmente em casos onde os achados não ficam claros. Comparações quantitativas com métodos estado da arte mostraram que nossa arquitetura, com apenas 120 milhões de parâmetros no gerador de texto, alcançou desempenho competitivo, particularmente em precisão (0,519), mantendo um custo computacional significativamente menor em comparação com modelos como XRayGPT (7 bilhões de parâmetros) e Med-PaLM (540 bilhões de parâmetros). Os resultados obtidos demonstraram o potencial dessa abordagem para beneficiar médicos emergencistas e estudantes de medicina durante o processo de análise de raios-X torácicos, potencialmente fornecendo suporte através de pré-escrita, pré-análise e auxílio na elaboração de laudos. O sistema proposto permite a execução em computadores com configuração padrão, tornando-o acessível para ambientes com recursos limitados. A implementação desta tecnologia pode tornar as análises mais rápidas e precisas, aumentando a eficiência desses profissionais na prática clínica.
Banca examinadora
Titulares:
André Santanchè | IC/UNICAMP |
Marcelo Schweller | Pesquisador Independente |
Rodrigo Frassetto Nogueira | Maritaca AI |
Suplentes:
Marcelo da Silva Reis | IC/UNICAMP |
Marco Antonio de Carvalho Filho | University of Groningen/Países Baixos |