22jul2025
14:00 Defesa de Doutorado sala 85 do IC2
Tema
Protein Function Annotation using Machine Learning and Local Alignment
Aluno
Gabriel Bianchin de Oliveira
Orientador / Docente
Zanoni Dias - Coorientador: Hélio Pedrini
Breve resumo
Com o avanço das técnicas de sequenciamento nas últimas décadas, milhões de proteínas tiveram suas sequências de aminoácidos determinadas por meio de experimentos laboratoriais. No entanto, a identificação das características específicas de cada proteína, como suas funções, ainda demanda altos custos e tempo considerável, uma vez que requer procedimentos experimentais complexos. A compreensão das funções desempenhadas por proteínas é essencial para o avanço de diversas aplicações científicas, visto que elas exercem papéis fundamentais nos processos biológicos dos organismos vivos.
Para reduzir a lacuna entre o número de proteínas com sequências conhecidas e aquelas com funções anotadas manualmente, diversas pesquisas têm sido conduzidas com o objetivo de aplicar métodos computacionais para esta análise, auxiliando na descoberta das funções exercidas pelas proteínas. Embora técnicas computacionais baseadas em sequências de aminoácidos já apresentem bons resultados, especialmente com o uso de abordagens de processamento de linguagem natural, como modelos baseados em Transformers, e alinhamento de sequências por ferramentas como DIAMOND e BLAST, a tarefa ainda permanece em aberto, evidenciando a complexidade e a necessidade contínua de novos avanços metodológicos.
Nesta pesquisa, apresentamos dois métodos baseados em aprendizado de máquina utilizando técnicas de processamento de linguagem natural, além de dois métodos de ensemble que combinam as predições das abordagens de aprendizado de máquina com alinhamento local, assim como modelos intermediários. Durante a avaliação na base de dados derivada do CAFA5, que é o mais recente conjunto de dados do desafio CAFA e principal referência para a tarefa de classificação de funções de proteínas, os métodos propostos apresentaram desempenho superior às abordagens da literatura, estabelecendo-se como o novo estado da arte na predição de funções proteicas utilizando apenas a sequência de aminoácidos. Por fim, apresentamos versões otimizadas quanto ao uso de memória, que requerem menor capacidade computacional para alcançar resultados comparáveis às versões originais, além de um servidor Web contendo as versões otimizadas dos métodos propostos.
Banca examinadora
Titulares:
| Zanoni Dias | IC/UNICAMP |
| Ana Ligia Barbour Scott | CMCC/UFABC |
| Carlos Henrique da Silveira | ICT/UNIFEI |
| Guilherme Pimentel Telles | IC/UNICAMP |
| Marcelo da Silva Reis | IC/UNICAMP |
Suplentes:
| Alexandre Mello Ferreira | IC/UNICAMP |
| Raquel Cardoso de Melo Minardi | DCC/UFMG |
| Felipe Rodrigues da Silva | Embrapa |