11 fev 2025
09:30 Defesa de Doutorado Sala 85 do IC2
Tema
Towards an Agnostic Superpixel Segmentation Framework
Aluno
Felipe de Castro Belém
Orientador / Docente
Alexandre Xavier Falcão e Jean Cousty - Coorientadores: Silvio Jamil Ferzoli Guimarães e Benjamin Perret
Breve resumo
Um problema clássico em segmentação de imagens envolve o particionamento de múltiplos objetos em partes disjuntas para que a delineação destes seja precisamente obtida pelo seu agrupamento. Essa tarefa, nomeada por segmentação em superpixels, apresenta tal propriedade enquanto reduz a ordem de magnitude da entrada, de pixels para grupos de pixels conexos e similares (\emph{i.e.}, superpixels). Além disso, ao gerar grupos de pixels similares, superpixels também apresentam uma informação com mais significado que seus pares atômicos, enquanto reduz a redundância intrínseca de pixels similares e próximos. Consequentemente, algoritmos em superpixel vêm sendo utilizados amplamente como passo intermediário para a resolução de múltiplos problemas. Entretanto, algoritmos do estado da arte se deparam com um grande desafio de segmentação efetiva e eficiente, independente das características do objeto ou fundo, e atendimento às demandas do usuário acerca da forma e disposição, por exemplo. Ou seja, não são capazes de serem adaptados facilmente e intuitivamente para qualquer domínio possível ou de gerar a saída esperada da segmentação, indicando que não são agnósticos de domínio. Essa dificuldade é normalmente resultante da concepção e otimização de soluções em domínios similares, o internaliza e especializa o algoritmo para segmentar um objeto particular em um contexto e saída específicos. Esta situação é normalmente encontrada em abordagens clássicas e em mais recentes, especialmente aquelas que consideram uma informação prévia do objeto, seja através de aprendizado profundo ou via representação intermediária, como mapas de saliência de objeto. Por exemplo, se desejar uma sequência de segmentações com características específicas, diversas abordagens necessitariam de múltiplas execuções, uma para cada. Na realidade, tal série de segmentações, denominada \emph{segmentação multiescala}, é uma abordagem usual para representar as características do objeto (ou da imagem) em diferentes escalas de percepção. Isto é, escalas mais finas, contendo uma grande quantidade de regiões, capturam os detalhes mais finos, enquanto aquelas mais rudimentares aglomeram redundâncias e provêem uma informação mais significativa acerca da região e seu entorno. Além disso, caso o usuário esteja somente interessado em um objeto, apenas poucos algoritmos incorporam tal informação por meio de mapas de saliência. Nestes algoritmos, a localização do objeto é representada pelas intensidades dos pixels, de tal forma que tons mais claros indicam maior probabilidade de pertencimento ao objeto, e mais escuros possuem maior probabilidade de pertencimento ao fundo. Ainda que estes métodos apresentem alta acurácia em delineamento, eles também são costumeiramente mais lentos que abordagens clássicas. Métodos que consideram informação de objeto por meio de técnicas de aprendizado profundo também sofrem de deterioração de velocidade quando uma única segmentação é requisitada pelo usuário. Ademais, estes normalmente apresentam um desempenho moderado em delineamento, na qual é posto em questionamento visto o esforço gasto no aprendizado das características do objeto. No fim, mais pesquisas são necessárias para gerar superpixels usando aprendizado profundo. Finalmente, outro problema surge caso o usuário possua uma segmentação multiescala, mas é ignorante da possibilidade de explorar propriedades hierárquicas para otimização e simplificação de tarefas. Pode-se notar que se é garantido que o objeto possa ser construído de maneira precisa através de uma simples seleção de nós em uma hierarquia, a tarefa de segmentação interativa seria demasiadamente facilitada. Mas, apenas alguns algoritmos de segmentação em superpixels são conhecidos por serem hierárquicos. De outra forma, a maioria dos algoritmos, quando é requisitada a geração de uma segmentação multiescala, não garantem um princípio crucial em segmentação hierárquica: o princípio da localidade. Tal princípio pode ser informalmente definido como a existência de bordas das escalas mais rudimentares nas escalas mais finas, indicando um aninhamento entre as regiões de ambos. Até onde se sabe, não há proposta para estimar a hierarquicidade, ou a semelhança de uma segmentação multiescala para uma hierárquica. Se feito de maneira ingênua, é possível notar que a tarefa é combinatória. Também, se considerar a possibilidade de inserir ou remover escalas para maximizar a semelhança, o problema atinge um alto nível de dificuldade. Trabalhos existentes para avaliação de hierarquias normalmente buscam um objeto, o que signfica a existência de uma máscara de objeto. Claramente, a referida tarefa é baseada em avaliar contornos e, para isso, pode-se ponderar os contornos baseado nos objetos definidos na máscara. Entretanto, o comportamento aninhado entre escalas não é relacionado a objeto, e ponderar a relevância das bordas não auxilia na determinação do comportamento aninhado da segmentação multiescala. Nesta tese, abordamos ambos os desafios propondo várias contribuições. Para a tarefa de domínio agnóstico, propomos um novo arcabouço de segmentação em superpixels, denominada Superpixels through Iterative CLEarcutting (SICLE), que generaliza duas outras contribuições desta tese, Dynamic and Iterative Spanning Forest (DISF) e Object-based DISF (ODISF). No SICLE, três etapas independentes são definidas: (i) superamostragem de sementes; (ii) geração de superpixels usando o arcabouço da Image Foresting Transform (IFT); e (iii) remoção de sementes. A partir de (i), onde uma quantidade significativamente alta de sementes é selecionada, as etapas (ii) e (iii) são executadas para gerar superpixels a partir de um conjunto aprimorado de sementes até atingir o número desejado de superpixels. Ao selecionar um número significativamente maior de pontos iniciais (\emph{i.e.}, \emph{sementes}) do que o número desejado de superpixels, o objetivo é aumentar a probabilidade de cada objeto possível conter pelo menos uma semente interna. Por outro lado, muitas abordagens do estado da arte selecionam um número de sementes aproximadamente igual ao número final de superpixels. Se o objeto e o número de sementes forem suficientemente pequenos, a estratégia de amostragem poderá não garantir essa propriedade para todos os objetos. Consequentemente, a falta de sementes está fortemente associada à deterioração do delineamento devido à concorrência reduzida. Após a amostragem, o SICLE gera os superpixels usando a \emph{Image Foresting Transform} (IFT) a partir do conjunto de sementes. A IFT é um arcabouço para o desenvolvimento de operadores de imagem com base na conectividade e pode ser calculada usando uma generalização do algoritmo de caminho mais curto de Dijkstra para considerar diferentes funções de conectividade. Assim, no IFT, cada superpixel é uma árvore cujos caminhos para sua semente são ótimos. Em outras palavras, uma árvore conquista pixels mais semelhantes a ela do que qualquer outra árvore. Dependendo da função de conectividade, o algoritmo pode não garantir a otimização teórica dos caminhos, mas ainda produz uma floresta de abrangência enraizada nas sementes, cuja aplicabilidade e desempenho são bem relatados na segmentação de superpixels. Após a amostragem, SICLE gera superpixels através da \emph{Image Foresting Transform} (IFT) a partir do conjunto de sementes. A IFT é um arcabouço para a construção de operadores de imagens baseados em conectividade, e pode ser calculada utilizando uma generalização do algoritmo de Dijkstra para caminhos mínimos, para considerar diferentes funções de conectividade. Assim, na IFT, cada superpixel é uma árvore cujos caminhos até a semente são ótimos. Em outras palavras, uma árvore conquista os pixels mais similares à ela do que à qualquer outra árvore. A depender da função de conectividade, o algoritmo pode não garantir a otimalidade teórica dos caminhos, mas ainda é capaz de gerar uma floresta geradora enraizada nas sementes, cuja aplicabilidade e desempenho é bem conhecido em segmentação em superpixels. Como resultado da superamostragem, o terceiro passo do arcabouço consiste em selecionar uma porção das sementes que não são necessárias para o acurado delineamento, enquanto mantém aquelas que são cruciais para tal objetivo. Neste trabalho, chamaremos as primeiras de \emph{irrelevantes} e as últimas como \emph{relevantes}. Visto que a precisa identificação da relevância de seemntes é difícil, SICLE permite tal informação manifestar através das iterações. Isto é, ao ``perturbar'' as sementes através da remoção parcial de sementes irrelevantes, as relevantes continuam para uma nova competição pelos pixels ``órfãos'' e, portanto, cada semente possui uma nova chance de exibir sua relevância. Nesta estratégia, uma semente relevante é continuamente indentificada como tal em cada iteração. Entretanto, caso um objeto específico seja desejado, pode-se notar que o critério para determinação de relevância de uma semente é prejudicada por tal subjetividade. Normalmente, a intenção é aumentar o número de sementes dentro ou próximas ao objeto de interesse. Em razão disso, o critério pode identificar falsos positivos, que podem ser percebidos como sementes relevantes para objetos irrelevantes. Logo, a relevância está sujeita à penalização sempre que tal informação é fornecida pelo mapa de saliência de objeto. Como se pode notar, o critério de parada do SICLE consiste me obter o número desejado de superpixels. Na maioria dos métodos do estado da arte, um número obrigatório de iterações é demandado para produzir a segmentação e, em algumas circunstâncias, ater à tal quantidade pode ser desnecessário. Por exemplo, quando a quantidade desejada de superpixels é signficativamente baixa, a competição é relaxada, e conquistar pixels dissimilares é corriqueiro. Para isso, a abordagem padrão é realocar sementes para o mínimo do grupo para minimizar a dissimilaridade interna ao superpixel, seja relacionada às características ou à posição espacial, por exemplo. Porém, para maiores quantidades de superpixel, a competição é extrema, levando à superpixels altamente especializados ou, de outra forma, reduzindo o agrupamento de pixels dissimilares. Logo, realocar sementes pode não fornecer uma melhoria significativa. Portanto, o objetivo do SICLE é considerar uma curva exponencial para determinar a quantidade de sementes a serem removidas a cada iteração. A motivação por trás de tal curva específica está associada ao comportamento intrínseco da competição na segmentação em superpixels. Partindo de um conjunto significativamente maior de sementes, as quais a maioria é irrelevante, remover uma grande porção usando um critério acurado afetaria minimamente o desempenho da segmentação. Entretanto, a medida que o número de sementes decai e se aproxima da quantidade final desejada de superpixels, remover uma grande porção, por exemplo uma parte do objeto, poderia acarretar em uma grande desestabilização na competição. Tal remoção favoreceria ``vazamentos'' severos e, consequentemente, a estratégia busca reduzir a quantidade de sementes a serem removidas até obter a quantidade desejada de superpixels. Note que esta estratégia permite computações mais rápidas para maiores quantidades de superpixels enquanto executa a quantidade necessária de iterações para manter o efetivo delineamento para menores quantidades de superpixels. Ademais, a partir desta curva, SICLE é capaz de gerar uma segmentação multiescala em uma única execução ao simplesmente apresentar as segmentações intermediárias a medida que o número de sementes restantes é reduzido e atinge cada valor especificado pelo usuário. O agnosticismo de domínio é alcançado no SICLE, principalmente através dos passos (ii) e (iii), os quais o usuário pode fornecer uma função objetivo para otimização. É possível notar que, visto que a superamostragem aumenta as chances de se selecionar uma semente em cada objeto, não há necessidade de se adaptar o passo (i) para novos domínios. Considerando a geração de superpixels, o passo (ii), sob diferentes funções de conectividade e de estimação do custo da aresta, fornece o ferramentário necessário para se produzir superpixels regulares ou irregulares baseado em algum fator de regularização, quando demandado. Ou seja, a IFT é responsável, principalmente, pela morfologia dos superpixels. Finalmente, quando se seleciona sementes relevantes, nota-se que a identificação acurada está associada diretamente com o domínio e com as características do objeto, indicando que viéses são cruciais para uma estimação altamente especializada e efetiva de relevância. Diferentes objetos com características distintas podem requerer diferentes estimações de relevância, e domínios diferentes podem demandar outros critérios de relevância. Resultados experimentais mostram que as variantes do SICLE superam diversos métodos do estado da arte em diversos domínios considerando velocidade e acurácia, enquanto gera uma sequência de segmentações em uma única execução. Em outros termos, SICLE é capaz de manter seu desempenho efetivo independente do domínio e, se as condições são favoráveis, como o fornecimento de um mapa de saliência acurado, nossos métodos são capazes de atingir o limite superior de seu desempenho em apenas duas iterações. Além disso, versões compactas do SICLE podem explorar a qualidade do mapa de saliência dado para fornecer uma propriedade não antes vista na segmentação em superpixels: superpixels altamente compactos e com alta aderência às bordas. Ainda assim, por mais que aparente, a referida multiescala não é garantida de ser hierárquica pelo SICLE visto as violações de localidade. Isto é, apesar do SICLE ser capaz de produzir uma sequência de segmentações estritamente decrescente, o que garante o princípio da localidade definido em segmentações hierárquicas, a presença das bordas da escala precedente não são garantidas na próxima escala. Por exemplo, ao alterar a competição para a segmentação subsequente, caminhos ótimos antes ``bloqueados'' por um superpixel irrelevante podem, agora, conquistar diversos pixels, incluindo aqueles previamente pertencentes à outro na escala anterior. Como consequência, bordas antes detectadas podem ser alteradas, violando assim o princípio da localidade e impedindo o aninhamento entre regiões. Logo, buscando prover uma medida para determinar a semelhança de uma segmentação multiescala para com uma hierarquia, nós definimos os conceitos de núcleo e de cobertura, que podem ser brevemente definidos como as regiões na escala anterior que são, respectivamente, aninhados ou que sobrepõem a região considerada na escala seguinte. Baseado em ambos, nós estudamos e catalogamos oito casos possíveis quando analisadas as regiões entre pares de segmentações subsequentes: (i) separação completa; (ii) deflação e separação; (iii) deflação completa; (iv) estabilidade; (v) instabilidade; (vi) inflação completa; (vii) inflação e junção; (viii) junção completa. Nestes casos, uma hierarquia é composta estritamente de junções completas ou de estabilidade para sequências com número decrescente de regiões, e é análogo para separação completa ou estabilidade quando o número de regiões é crescente. A partir desses casos, nós concebemos três medidas para estimar a hierarquicidade de uma segmentação multiescala: (i) nestedness; (ii) inflation ratio; e (iii) refinement error. A primeira medida estima, baseado no núcleo de cada região, a razão de regiões na escala precedente aninhadas na escala subsequente. Ao contrário, a segunda medida calcula a razão da inflação das regiões na escala anterior para construir as regiões da seguinte. Para isso, são excluídas as contribuições das regiões pertencentes à algum núcleo da escala seguinte. Finalmente, a terceira medida é inspirada em uma métrica popular em segmentação em superpixels e mede a taxa para modificação das regiões da escala anterior para que todas estejam aninhadas na escala seguinte. Ou seja, ela avalia o esforço mínimo para alteração: ou removendo a interseção entre regiões quando é suficientemente baixa, ou juntando regiões quando a interseção é suficientemente alta. Por definição, uma hierarquia apresentaria nestedness máximo, e valores mínimos de inflation ratio e refinement error. Tal propriedade está também presente entre segmentações subsequentes na hierarquia, signfiicando que se quaisquer duas partições subsequentes exibem um comportamento aninhado, é possível concluir que a série completa exibe um comportamento aninhado e, finalmente, que a multiescala é uma hierarquia. Chegar em tal conclusão a partir das nossas contribuições é uma forma mais eficiente do que avaliar todas os pares possíveis entre escalas. Também, é possível notar que, para calcular tais medidas, assumimos que a escala precedente é a ``máscara'' de sua respectiva escala subsequente. A partir dos nossos resultados, podemos verificar que nossas propriedades são verdadeiras e, mais importante, que é possível verificar se uma multiescala é uma hierarquia. Ademais, quando não é o caso, combinando os resultados de todas as medidas oferece uma ampla e clara perspectiva da natureza e gravidade das violações hierárquicas existentes na segmentação em multiescala, que a impede de ser hierárquica. Por exemplo, ``quase hierarquias'' podem ser identificadas em dois casos: alto nestedness e baixos inflation ratio e refinement error, e baixos nestedness, inflation ratio, e refinement error. Enquanto o primeiro apresenta uma perspectiva clara do comportamento aninhado, o último indica que, apesar do aninhamento não estar garantido, a inflação é mínima e a correção das bordas também é mínima.
Banca examinadora
Titulares:
Thierry Géraud EPITA
Alexandre Xavier Falcão UNICAMP
Jean Cousty ESIEE
Silvio Jamil Ferzoli Guimarães PUC Minas
Benjamin Perret ESIEE
Ewa Kijak IRISA
Nina Sumiko Tomita Hirata USP
Paulo André Vechiatto de Miranda USP
Suplentes:
- -