15 jul 2022
09:00 Defesa de Doutorado Integralmente a distância
Tema
Arquiteturas de Redes Neurais Leves Aplicadas à Detecção de Texto e Lixo / Light-Weight Neural Network Architectures Applied to Text and Litter Detection
Aluno
Manuel Alberto Cordova Neira
Orientador / Docente
Orientador: Ricardo da Silva Torres / Coorientadores: Hélio Pedrini e Allan da Silva Pinto
Breve resumo
As abordagens de aprendizado profundo vêm alcançando excelentes resultados, tornando-se a tecnologia de ponta em diversas áreas. No entanto, a maioria das propostas conta com o uso de arquiteturas muito profundas. Seus modelos associados são computacionalmente caros em termos de armazenamento, espaço de memória e tempo de processamento, inviabilizando seu uso em aplicações de tempo real em equipamentos com baixa capacidade de processamento, como dispositivos móveis. Nesta pesquisa de doutorado, focamos no estudo de arquiteturas de redes neurais convolucionais leves no contexto de dois problemas: (i) detecção de texto em cenas e (ii) detecção de lixo. Ambos os problemas são muito relevantes e desafiadores. Enquanto os detectores de texto em cenas são essenciais em, por exemplo, aplicativos assistivos e de tradução de documentos, a detecção de lixo tem sido empregada em várias iniciativas para combater a poluição ambiental. Os desafios associados referem-se a cenários naturais complexos, diferentes tipos e formas de objetos alvo, oclusão, entre outros. Com relação ao primeiro problema, propomos duas abordagens leves, PeleeText e PeleeText++, para detecção de texto multi-orientado multilíngue. Nossas propostas são baseadas na rede PeleeNet, que é uma rede neural compacta especialmente adaptada para executar em dispositivos móveis. Além disso, em vez das caixas delimitadoras tipicamente retangulares, nossas abordagens usam quadriláteros que os tornam eficazes para detectar texto com algum tipo de orientação. Vários experimentos demonstraram que nossas redes neurais leves são promissoras, com resultados competitivos em relação aos métodos da literatura, sendo pelo menos 2,96x menores e 5,5x mais rápidos. Nossa melhor proposta, com um tamanho de modelo de apenas 27 Megabytes, atingiu valores para a medida-F de 91,20%, 85,78%, 81,72%, 80,30% e 66,51% nas bases de dados ICDAR 2011, ICDAR 2013, ICDAR 2015, MSRA-TD500 e Multi-lingual 2019, respectivamente. Além disso, também demonstramos a eficiência e eficácia dos métodos propostos em telefones celulares comerciais. Em relação ao segundo problema, introduzimos um novo conjunto de dados disponível publicamente, chamado PlastOpol, que considera diferentes cenários ecológicos, tipos de lixo, oclusão e diferentes níveis de iluminação. Além disso, apresentamos um estudo comparativo de abordagens de detecção de última geração no contexto deste problema, usando um padrão e um protocolo de avaliação baseado em dispositivos móveis. Yolo-v5 apresentou resultados mais promissores, atingindo valores para a medida-F de 76,20% e 56,00% nos conjuntos de dados PlastOpol e TACO, respectivamente. Além disso, Yolo-v5s e EfficientDet-d0 aparecem como abordagens leves e promissoras para a detecção de lixo. Por fim, apresentamos oportunidades de pesquisa em aberto identificadas durante este trabalho, especialmente considerando a importância de modelos leves em ambos os problemas.
Banca examinadora
Titulares:
Hélio Pedrini IC/UNICAMP
Filipe de Oliveira Costa CPQD
Flávio de Barros Vidal IE/UnB
Levy Boccato FEEC/UNICAMP
Marcelo da Silva Reis IC/UNICAMP
Suplentes:
Sandra Eliza Fontes de Avila IC/UNICAMP
Marco Antonio Garcia de Carvalho FT/UNICAMP
João Paulo Papa FC/UNESP