06 ago 2020
10:00 Defesa de Mestrado Integralmente a distância
Tema
Detection of Violent Events in Video Sequences Based on the Census Transform Histogram Operator
Aluno
Felipe Faria de Souza
Orientador / Docente
Hélio Pedrini
Breve resumo
Sistemas de vigilância em sequências de vídeo têm sido amplamente utilizados para o monitoramento de cenas em diversos ambientes, tais como aeroportos, bancos, escolas, indústrias, estações de ônibus e trens, rodovias e lojas. Devido à grande quantidade de informação obtida pelas câmeras de vigilância, o uso de inspeção visual por operadores de câmera se torna uma tarefa cansativa e sujeita a falhas, além de consumir muito tempo. Um desafio é o desenvolvimento de sistemas inteligentes de vigilância capazes de analisar longas sequências de vídeos capturadas por uma rede de câmeras de modo a identificar um determinado comportamento. Neste trabalho, propomos e analisamos o uso de diversas técnicas de classificação, tendo como base o operador CENTRIST (Histograma da Transformada Census), no contexto de identificação de eventos violentos em cenas de vídeo. Adicionalmente, avaliamos outros descritores tradicionais, como HoG (Histograma de Gradientes Orientados), HoF (Histograma do Fluxo Óptico) e descritores extraídos a partir de modelos de aprendizado de máquina profundo pré-treinados. De modo a permitir a avaliação apenas em regiões de interesse presentes nos quadros dos vídeos, investigamos técnicas para remoção do fundo da cena. Uma abordagem baseada em janela deslizante foi utilizada para avaliar regiões menores da cena em combinação com um critério de votação. A janela deslizante é então aplicada juntamente com uma filtragem de blocos utilizando fluxo óptico da cena. Para demonstrar a efetividade de nosso método para discriminar violência em cenas de multidões, comparamos os resultados com outras abordagens disponíveis na literatura em duas bases de dados públicas (Violence in Crowds e Hockey Fights). A eficácia da combinação entre CENTRIST e HoG foi demonstrada em comparação com a utilização desses operadores individualmente. A combinação desses operadores obteve aproximadamente 88% contra 81% utilizando apenas HoG e 86% utilizando CENTRIST. A partir do refinamento do método proposto, identificamos que avaliar blocos do quadro com a abordagem de janela deslizante tornou o método mais eficaz. Técnicas para geração de palavras visuais com codificação esparsa, medida de distância com um modelo de misturas Gaussianas e medida de distância entre agrupamentos foram avaliadas e discutidas. Formas de restringir os atores presentes nas cenas utilizando fluxo óptico foram analisadas a partir do método de Otsu e da filtragem dos blocos com base em um limiar calculado pela média do fluxo óptico da cena. Finalmente, calculamos dinamicamente o limiar para votação de classes, o qual, na maioria dos casos, obteve resultados superiores, superando nossos resultados mais competitivos: 91,46% de acurácia para a base Violence in Crowds e 92,79% para a base Hockey Fights.
Banca examinadora
Titulares:
Hélio Pedrini IC/UNICAMP
Alexandre Gonçalves Silva INF/UFSC
André Santanchè IC/UNICAMP
Suplentes:
Esther Luna Colombini IC/UNICAMP
Moacir Antonelli Ponti ICMC/USP