06 dez 2022
15:00 Defesa de Mestrado Integralmente a Distância
Tema
Sumarização abstrativa de podcasts utilizando longformers
Aluno
Edgar Kenji Tanaka
Orientador / Docente
Orientador: Jacques Wainer/ Coorientadora: Ann Clifton
Breve resumo
"Podcasts se estabeleceram como uma importante fonte de conteúdo em áudio nos dias de hoje. Conforme o número de podcasts aumenta, fica cada vez mais evidente a necessidade de boas descrições que ajudem usuários a decidir se vão ou não escutar a um determinado episódio. No entanto, as descrições fornecidas pelos criadores de podcasts geralmente carecem de informações importantes sobre o episódio. Além disso, estas descrições são frequentemente usadas para propaganda de produtos ou divulgação de redes sociais. Como alternativa a essas descrições fornecidas pelos criadores, a tarefa de sumarização automática de podcasts foi proposta na conferência TREC 2020. Muitos pesquisadores propuseram diferentes modelos baseados em deep learning para resolver esse problema. No entanto, todos modelos propostos estavam restritos a apenas podcasts em inglês. À medida que o consumo de podcasts aumenta globalmente, é fundamental explorar modelos capazes de ingerir e gerar texto em vários idiomas. Nesta dissertação de mestrado, investigamos a aplicação de modelos multilíngues baseados em transformadores para gerar automaticamente resumos abstrativos a partir de transcrições de podcasts. Experimentamos e contrastamos modelos com um mecanismo de full self-attention e um mecanismo de Longformer self-attention. Além disso, estudamos o impacto do ajuste fino desses modelos de forma monolíngue e bilíngue. Por fim, exploramos o fenômeno de cross lingual transfer learning no contexto de sumarização de podcasts multilíngue. O escopo de nossa pesquisa se limita ao inglês e português, mas a metodologia proposta aqui pode ser generalizada para qualquer outro conjunto de idiomas. "
Banca examinadora
Titulares:
Jacques Wainer IC/UNICAMP
Julio Cesar dos Reis IC/UNICAMP
Thiago Alexandre Salgueiro Pardo ICMC/USP
Suplentes:
Sandra Eliza Fontes de Avila IC/UNICAMP
Norton Trevisan Roman EACH/USP