Defesa de Doutorado de Alberto Arruda de Oliveira

Título do Trabalho
Relevance Prediction in Information Retrieval Systems
Candidato(a)
Alberto Arruda de Oliveira
Nível
Doutorado
Data
Add to Calender 2019-10-11 00:00:00 2019-10-11 00:00:00 Defesa de Doutorado de Alberto Arruda de Oliveira Relevance Prediction in Information Retrieval Systems Sala 85 do IC 2 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
14:00
Local
Sala 85 do IC 2
Orientador(a)
Anderson de Rezende Rocha
Banca Examinadora

* Titulares

Unidade/Instituição

Anderson de Rezende Rocha 

IC/UNICAMP

Agma Juci Machado Traina

ICMC/USP

Daniel Carlos Guimarães Pedronette

UNESP

Esther Luna Colombini

IC/UNICAMP

Lin Tzy Li

Samsung

 

* Suplentes

Unidade/Instituição

Jacques Wainer

IC/UNICAMP

Sandra Eliza Fontes de Avila

IC/UNICAMP

Moacir Antonelli Ponti

ICMC/USP

 

Resumo

No mundo conectado atual, Recuperação de Informação (IR) tem se tornado um campo de pesquisa de crescente interesse, sendo um problema presente em muitas aplicações modernas. Dentre os muitos desafios no desenvolvimento the sistemas de IR está uma correta avaliação de performance desses sistemas. Avaliação offline, entretanto, se limita na maioria dos casos ao benchamark e comparação de performance entre diferentes sistemas. Esse fato levou ao surgimento do problema denomidado Predição de Performance de Consulta (QPP), cujo objetivo é estimar, em tempo de consulta, a qualidade dos resultados obtidos. Nos últimos anos, QPP recebeu grande atenção na literatura, sobretudo no contexto de busca textual. Ainda assim, QPP também tem suas limitações, principalmente por ser uma maneira indireta de estimar a performance de sistemas de IR. Nessa tese, investigamos formular o problema de QPP como um problema de predição de relevância: a tarefa de predizer, para um determinado top-k, quais resultados de uma consulta são de fato relevantes para ela, de acordo com uma referência de relevância existente. Apesar de notavelmente desafiador, predição de relevância é não só uma maneira mais natural de estimar performance, como também com muitas aplicações. Nessa tese, apresentamentes três famílias de métodos de predição de relevância: estatísticos, aprendizado, e rotulação sequencial. Todos os métodos nessas famílias tiveram sua efetividade avaliada em diversos experimentos em recuperação de imagens por conteúdo, cobrindo uma vasta gama de conjuntos de dados de grande-escala, assim como diferentes configurações de recuperação. Mostramos que é possível gerar predições de relevância precisas, para grandes valores de k, não só connhecendo pouco do sistema de IR analisado, como também de forma eficiente o bastante para ser aplicável em tempo de consulta. Finalizamos esta tese discutindo alguns caminhos possíveis para melhorar os resultados obtidos, assim como trabalhos futuros nesse campo de pesquisa.