Defesa de Doutorado de Helena de Almeida Maia

27 out 2020

14:00 Defesa de Doutorado Integralmente a distância

Relacionado

Tema

Visual Rhythm-based Convolutional Neural Networks and Adaptive Fusion for a Multi-stream Architecture Applied to Human Action Recognition

Aluno

Helena de Almeida Maia

Orientador / Docente

Hélio Pedrini

Breve resumo

A grande quantidade de dados de vídeos produzidos e divulgados todos os dias torna a inspeção visual por um operador humano impraticável. No entanto, o conteúdo desses vídeos pode ser útil para várias tarefas importantes, como vigilância e monitoramento de saúde. Portanto, métodos automáticos são necessários para detectar e compreender eventos relevantes em vídeos. O problema abordado neste trabalho é o reconhecimento das ações humanas em vídeos que visa classificar a ação que está sendo realizada por um ou mais atores. A complexidade do problema e o volume de dados de vídeo sugerem o uso de técnicas baseadas em aprendizado profunda, no entanto, ao contrário de problemas relacionados a imagens, não há uma grande variedade de arquiteturas bem estabelecidas específicas nem conjuntos de dados anotados tão grandes quanto aqueles baseados em imagens. Para contornar essas limitações, propomos e analisamos uma arquitetura multicanais composta de redes baseadas em imagens pré-treinadas na base ImageNet. Diferentes representações de imagens são extraídas dos vídeos que servem como entrada para os canais, a fim de fornecer informações complementares para o sistema. Aqui, propomos novos canais baseados em ritmo visual que codificam informações de mais longo prazo quando comparados a quadros estáticos e fluxo óptico. Tão importante quanto a definição de aspectos representativos e complementares é a escolha de métodos de combinação adequados que explorem os pontos fortes de cada modalidade. Assim, aqui também analisamos diferentes abordagens de fusão para combinar as modalidades. Para definir os melhores parâmetros de nossos métodos de fusão usando o conjunto de treinamento, temos que reduzir o sobreajuste em modalidades individuais, caso contrário, as saídas 100% precisas não ofereceriam uma representação realista e relevante para o método de fusão. Assim, investigamos uma técnica de parada precoce para treinar redes individuais. Além de reduzir o sobreajuste, esse método também reduz o custo de treinamento, pois normalmente requer menos épocas para concluir o processo de classificação e se adapta a novos canais e conjuntos de dados graças aos seus parâmetros treináveis. Os experimentos são realizados nos conjuntos de dados UCF101 e HMDB51, que são duas bases desafiadoras no contexto de reconhecimento de ações.

Banca examinadora

Titulares:

Hélio Pedrini	IC/UNICAMP
Rodrigo Luis de Souza da Silva	DCC/UFJF
Tiago José de Carvalho	IFSP
Esther Luna Colombini	IC/UNICAMP
Tiago Fernandes Tavares	FEEC/UNICAMP

Suplentes:

André Santanchè	IC/UNICAMP
Alexandre Mello Ferreira	IC/UNICAMP
Gilson Antonio Giraldi	LNCC

Defesa de Doutorado de Helena de Almeida Maia

Relacionado

Notícias

IC abre Concurso Público para Professor Doutor na Área de Inteligência Artificial

IC tem verba para Apoio para Atividades de Extensão em 2025

Chamada para Projetos de Extensão do IC – 1s2025

Parceiros