23 set 2024
08:00 Defesa de Mestrado Auditório do IC3
Tema
Reconhecimento de gestos em língua brasileira de sinais (Libras) utilizando transformadores visuais
Aluno
Wladimir Arturo Garces Carrillo
Orientador / Docente
Marcelo da Silva Reis - Coorientadora: Emely Pujólli da Silva
Breve resumo
A falta de acessibilidade para as comunidades surdas é um desafio persistente. Apesar dos avanços em políticas públicas e tecnologia, ainda há dificuldades na comunicação e no acesso aos serviços básicos para os surdos, que também enfrentam estigmas e preconceitos. Um dos obstáculos para o desenvolvimento de tecnologias de Reconhecimento Automático de Língua de Sinais (ASLR, do inglês, Automatic Sign Language Recognition), especialmente na Língua Brasileira de Sinais (Libras) é a escassez de bases de dados confiáveis, devido à falta de padronização das terminologias, amostras anotadas de sinais e variações regionais. Para mitigar as limitações quanto ao tamanho dos conjuntos de dados de Libras existentes, propomos neste trabalho a aplicação de técnicas de aumentação de dados, a partir da geração de vídeos com Modelos Probabilísticos de Difusão para Remoção de Ruído (DDPM, do inglês, Denoising Diffusion Probabilistic Models). Para
esse fim, utilizaremos para treinamento e teste do modelo de aprendizado o conjunto de dados em Libras usado por Vidalón and Martino [96] (Elias Dataset) e como modelo de aprendizado transformadores visuais (ViT, do inglês, Vision Transformers). Para o processo de aumentação, investigaremos ainda o uso de outros conjuntos de dados de Libras existentes na literatura. Esperamos com este trabalho viabilizar o desenvolvimento de soluções mais precisas e eficientes para o ASLR.
Banca examinadora
Titulares:
Marcelo da Silva Reis | IC/UNICAMP |
Ivani Rodrigues Silva | FCM/UNICAMP |
Hélio Pedrini | IC/UNICAMP |
Suplentes:
Andre Santanche | IC/UFBA |
Kate Mamhy Oliveira Kumada | CCNH/UFABC |