02 out 2020
14:00 Defesa de Mestrado Integralmente a distância
Tema
Cross-dataset emotion recognition from facial expressions through convolutional neural networks
Aluno
William Marques Dias
Orientador / Docente
Anderson de Rezende Rocha
Breve resumo
O rosto é a janela da alma. É o que pensava o médico francês do século XIX, Duchenne de Boulogne. Usando choques elétricos para estimular contrações musculares e induzir expressões de aparência assustadora e bizarra, ele queria entender como os músculos produziam expressões faciais e assim revelar as emoções mais ocultas do ser humano. Passados dois séculos, esse campo de pesquisa continua muito ativo, despertando o interesse de diversos segmentos da indústria. Vemos sistemas automáticos de reconhecimento de emoção e expressão facial sendo aplicados na medicina, em sistemas de segurança e vigilância, em propaganda e \emph{marketing}, entre outros. Mas, apesar de sua ampla adoção, ainda existem questões fundamentais que os cientistas estão tentando responder quando analisamos o estado emocional de uma pessoa a partir de suas expressões faciais. É possível inferir, com segurança, o estado interno de alguém baseando-se apenas nos movimentos de seus músculos faciais? Existe uma configuração facial universal para expressar raiva, repulsa, medo, felicidade, tristeza e surpresa, comumente chamadas de emoções básicas? Nesta pesquisa, tentamos responder a essas questões explorando redes neurais convolucionais. Diferentemente da maioria dos estudos disponíveis na literatura, estamos particularmente interessados em examinar se as características aprendidas em um grupo de pessoas podem ser empregadas para prever, com sucesso, as emoções de outro. Nesse sentido, adotamos um protocolo de avaliação em conjunto de dados cruzados para mensurar o desempenho dos métodos propostos. Nosso método de base foi construído a partir do ajuste fino de um modelo originalmente empregado no problema de reconhecimento facial para o problema de categorização de emoções. Em seguida, aplicamos técnicas de visualização de dados para entender o que nossa rede de base havia aprendido para, então, derivarmos três outros métodos. O primeiro método visa direcionar a atenção da rede para regiões da face consideradas importantes na literatura, mas ignoradas pelo nosso modelo inicial, usando uma arquitetura multi-ramificada para uma abordagem baseada em partes. No segundo método, simplificamos essa arquitetura e trabalhamos nos dados de entrada, ocultando partes aleatórias da imagem facial, de modo que rede pudesse aprender características discriminativas em diferentes regiões. No terceiro método, exploramos uma função de perda que gera representações de dados em espaços de alta dimensão, de forma que exemplos da mesma classe de emoção fiquem próximos e exemplos de classes diferentes fiquem distantes. Finalmente, investigamos a complementaridade entre dois de nossos métodos, propondo uma técnica de fusão tardia que combina seus resultados por meio da multiplicação de probabilidades. Para efeito de comparação de nossos resultados, compilamos uma extensa lista de trabalhos avaliados nos mesmos conjuntos escolhidos. Em todos eles, quando comparados a trabalhos que seguiram um protocolo de avaliação em um único conjunto de dados, nossos métodos apresentam números competitivos. Já sob um protocolo de conjunto de dados cruzados, obtivemos resultados do estado da arte, superando até mesmo aplicações comerciais de grande empresas de tecnologia.
Banca examinadora
Titulares:
Anderson de Rezende Rocha IC/UNICAMP
Teófilo Emidio de Campos CIC/UnB
Paula Dornhofer Paro Costa FEEC/UNICAMP
Suplentes:
Raphael Felipe de Carvalho Prates IC/UNICAMP
Marley Maria Bernardes Rebuzzi Vellasco PUC-Rio