26 mar 2020
14:30 Defesa de Mestrado Integralmente a distância
Tema
Melhorando a Precisão do Reconhecimento de Texto usando Técnicas Baseadas em Sintaxe
Aluno
Carla Doris Cardoso Cusihuallpa
Orientador / Docente
Guido Costa Souza de Araújo
Breve resumo
Devido à grande quantidade de informações visuais disponíveis atualmente, a detecção e o reconhecimento de texto em imagens de cenas naturais começaram a ganhar importância nos últimos tempos. Seu objetivo é localizar regiões da imagem onde há texto e reconhecê-lo. Essas tarefas geralmente são divididas em duas partes: detecção de texto e reconhecimento de texto. Embora as técnicas para resolver esse problema tenham melhorado nos últimos anos, o uso excessivo de recursos de hardware e seus altos custos computacionais impactaram significativamente a execução de tais tarefas em sistemas integrados altamente restritos (por exemplo, TVs inteligentes). Embora existam métodos de detecção e reconhecimento de texto executados em tais sistemas, eles não apresentam bom desempenho quando comparados às soluções de ponta em outras plataformas de computação. Embora atualmente existam vários métodos de pós-correção que melhoram os resultados em documentos históricos digitalizados, há poucas explorações sobre o seu uso nos resultados de imagens de cenas naturais. Neste trabalho, exploramos um conjunto de métodos de pós-correção, bem como propusemos novas heuríticas para melhorar os resultados em imagens de cenas naturais, tendo como base de prototipação o software de reconhecimento de textos Tesseract. Realizamos uma análise com os principais métodos disponíveis na literatura para correção dos errose encontramos a melhor combinação que incluiu os métodos de substituição, eliminação nos últimos caracteres e composição. Somado a isto, os resultados mostraram uma melhora quando introduzimos uma nova heurística baseada na frequência com que os possíveis resultados aparecem nas bases de dados de frequência para categorias como magazines, jornais, ficção, web, etc. Para localizar erros e evitar \textit{overcorrection} foi considerado diferentes restrições obtidos através do treinamento da base de dados do tesseract. Selecionamos como melhor restrição a \texttt{incerteza} do melhor resultado obtido pelo Tesseract. Os experimentos foram realizados com sete banco de dados usados em sites de competição na área, considerando tanto banco de dados para desafio em reconhecimento de texto e aqueles com o desafio de detecção e reconhecimento de texto. Em todos os bancos de dados, tanto nos dados de treinamento como de testes, os resultados do Tesseract com o método proposto de pós-correção melhorou consideravelmente em comparação com os resultados obtidos somente com o Tesseract.
Banca examinadora
Titulares:
Guido Costa Souza de Araújo | IC/UNICAMP |
Ricardo da Silva Torres | IC/UNICAMP |
Fábio Augusto Menocci Cappabianco | ICT/UNIFESP |
Suplentes:
Sandra Eliza Fontes de Avila | IC/UNICAMP |
Jurandy Gomes de Almeida Júnior | ICT/UNIFESP |