26 fev 2025
14:00 Defesa de Doutorado Sala 85 do IC 2
Tema
E-NFA Pequeno para Alinhamento de Sequências Restrito por Expressão Regular
Aluno
Lise Rommel Romero Navarrete
Orientador / Docente
Guilherme Pimentel Telles
Breve resumo
O alinhamento de sequências é um problema fundamental na biologia molecular, usado para avaliar as semelhanças estruturais e funcionais entre sequências biológicas. Uma versão interessante deste problema é o alinhamento restrito por expressão regular (RECSA, do inglês regular expression constrained sequence alignment), onde um subalinhamento deve corresponder a uma expressão regular.
Expressões regulares podem ser usadas para representar padrões biológicos, incluindo aqueles definidos pelo PROSITE.
Para resolver o problema RECSA, autômatos são usados como reconhecedores de sequências.
Este trabalho aborda o problema RECSA focando na melhoria da construção de autômatos e na sua integração com o alinhamento de sequências restrito. Ele está organizado em três partes.
Na primeira parte propomos, analisamos e implementamos uma versão simplificada da construção de Thompson para resolver o problema RECSA, introduzindo listas de estados ativos para os padrões PROSITE como uma restrição. Apresentamos os resultados de experimentos comparativos entre nossa abordagem e outras da literatura.
Na segunda parte exploramos a construção de Thompson focando nas condições sob as quais um autômato de tamanho linear em relação ao tamanho da expressão regular pode ser construído. Introduzimos o conceito de expressão regular composta e a construção de um autômato a partir de uma expressão regular que isola subexpressões que levam a autômatos grandes, permitindo, em certos casos, a construção de um E-free NFA de tamanho linear. Esses casos incluem padrões PROSITE e outras expressões regulares que possuem símbolos epsilon e fechos de Kleene, que tipicamente resultam em autômatos grandes.
Na terceira parte exploramos o autômato de Glushkov baseado nos conjuntos first, last e follow, e introduzimos a follow matrix como um novo formalismo para representar expressões regulares. Mostramos propriedades das follow matrices, incluindo sua capacidade intrínseca de eliminar componentes redundantes e triviais da representação da expressão regular, proporcionando assim uma representação mais eficiente e compacta das linguagens regulares. Exploramos o uso da follow matrix para simplificar e reduzir o tamanho de um E-free NFA, apresentando ideias para um algoritmo de construção de E-free NFA baseado na follow matrix.
Banca examinadora
Titulares:
Guilherme Pimentel Telles | IC/UNICAMP |
Maria Emília Machado Telles Walter | IE/UnB |
Said Sadique Adi | FACOM/UFMS |
João Meidanis | IC/UNICAMP |
Lehilton Lelis Chaves Pedrosa | IC/UNICAMP |
Suplentes:
Zanoni Dias | IC/UNICAMP |
Marcelo Keese Albertini | FACOM/UFU |
Nalvo Franco de Almeida Junior | FACOM/UFMS |