Defesa de Doutorado de Thierry Pinheiro Moreira

Título do Trabalho
Video Action Recognition Based on Fusion of Visual Rhythm Representations
Candidato(a)
Thierry Pinheiro Moreira
Nível
Doutorado
Data
Add to Calender 2018-06-07 00:00:00 2018-06-07 00:00:00 Defesa de Doutorado de Thierry Pinheiro Moreira Video Action Recognition Based on Fusion of Visual Rhythm Representations Sala 53 IC 2 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
13:30h
Local
Sala 53 IC 2
Orientador(a)
Hélio Pedrini
Banca Examinadora

Condição

Titulares  -  Professores Doutores

Unidade/Instituição

Presidente

Hélio Pedrini

IC/UNICAMP

Membro

Silvio Jamil Ferzoli Guimarães

ICEI/PUC Minas

Membro

Thiago Vallin Spina

CNPEM/LNLS

Membro

André Santanchè

IC/UNICAMP

Membro

Esther Luna Colombini

IC/UNICAMP

 

Condição

Suplentes  -  Professores Doutores

Unidade/Instituição

Suplente

Jacques Wainer

IC/UNICAMP

Suplente

Moacir Antonelli Ponti

ICMC/USP

Suplente

Tiago José de Carvalho

IFSP

Resumo

O avanço das tecnologias de captura e armazenamento de vídeos criou uma grande necessidade de reconhecimento automático de ações. Entre suas aplicações estão sistemas de vigilância, pois não sofrem o tédio dos operadores humanos, monitoramento de saúde, casas inteligentes e verificação de conteúdo, que possui uma crescente demanda devido à popularização de sites e redes sociais de compartilhamento multimídia.  Uma dificuldade inerente ao problema é a complexidade da cena em condições habituais de gravação, podendo conter fundo complexo e com movimentos, múltiplas pessoas na cena, interações com outros atores ou objetos e movimentos de câmera. Bases de dados mais recentes são construídas principalmente com gravações compartilhadas no YouTube e com trechos de filmes, situações onde não se restringem estes obstáculos. Outra dificuldade é o impacto da dimensão tempo, pois ela infla o tamanho dos dados, aumentando o custo computacional e o espaço de armazenamento. Neste trabalho, apresentamos uma metodologia de descrição de volumes utilizando Ritmos Visuais -- uma transformação de vídeo que, até onde sabemos, nunca antes foi utilizada no reconhecimento de ações. Esta técnica remodela o volume original em uma imagem, onde se computam descritores 2D. Estudamos diferentes estratégias para montagem do ritmo visual, combinando análises em diversos domínios de imagem e direções de varredura dos quadros. A partir disso, propomos dois métodos de extração de características originais, Naïve Visual Rhythm (Naïve VR) e Visual Rhythm Trajectory Descriptor (VRTD). O Naïve VR é a aplicação ingênua da técnica no volume de vídeo original, formando um descritor holístico que enxerga os eventos da ação como padrões e formatos na imagem de ritmo visual. A segunda variação, VRTD, foca na análise de pequenas vizinhanças obtidas a partir do processo das trajetórias densas. Essa abordagem de menor granularidade permite que o algoritmo capture detalhes despercebidos pela descrição global. Testamos a nossa proposta em oito bases de dados públicas, sendo uma de gestos (SKIG), duas em primeira pessoa (DogCentric e JPL), e cinco em terceira pessoa (Weizmann, KTH, MuHAVi, UCF11 e HMDB51). Os resultados mostram que a técnica empregada é capaz de extrair elementos de movimento juntamente com informações de formato e de aparência. O método desenvolvido obteve acurácia competitiva com o estado da arte.