25 abr 2025
09:00 Defesa de Mestrado Sala 85 do IC2
Tema
Aprendizado em Problemas de Agendamento com Preferências Ocultas através de Aprendizado por Reforço Offline
Aluno
Daniel Gardin Gratti
Orientador / Docente
Marcos Medeiros Raimundo - Coorientadora: Esther Luna Colombini
Breve resumo
Problemas de agendamento podem ser modelados de forma eficiente através do paradigma de programação por restrições (CP), onde as restrições e objetivos são definidos explicitamente para representar cenários práticos, que vão desde a execução sequencial de tarefas, até desafios mais complexos, como falhas em máquinas e bloqueios operacionais. A teoria clássica de agendamento propõe modelos generalistas, como o Problema de Escalonamento em Job-Shop (JSSP), para representar situações reais. No entanto, esses modelos costumam exigir alto poder computacional para resolver instâncias de grande porte, já que muitos são problemas NP-difíceis. Além disso, muitas vezes não capturam as decisões e preferências que operadores experientes levam em conta na prática. Para contornar essas limitações, regras de despacho baseadas em prioridades (PDRs) são adaptadas a contextos específicos, frequentemente desenvolvidas de forma manual, produzindo soluções que, embora não sejam ótimas, são viáveis e eficientes na prática. Essas regras ajudam a priorizar clientes estratégicos ou a lidar com operações críticas, mas ainda assim muitos requisitos reais são difíceis de modelar com precisão, o que mantém a tomada de decisão mais dependente da experiência humana.
Neste trabalho, investigamos abordagens baseadas em dados para problemas de agendamento em que as preferências não são conhecidas e os objetivos de agendamentos anteriores não estão claramente registrados. Em particular, exploramos técnicas para aprender restrições e parâmetros de objetivos, replicar o comportamento de especialistas e inferir preferências a partir de estimativas baseadas em modelos, ao mesmo tempo em que aprendemos políticas para o despacho de tarefas. Avanços recentes no aprendizado por reforço offline mostram que métodos baseados em dados podem ser eficazes para problemas de decisão sequencial, permitindo aprender tanto a política quanto a dinâmica do ambiente. Como esses problemas costumam ser NP-difíceis, desenvolver uma política totalmente ótima ou um modelo perfeito do ambiente não é viável na prática. Por isso, nossa abordagem se apoia em um modelo geral de programação por restrições para lidar com as partes conhecidas do problema, permitindo focar na estimação das incertezas do ambiente, em vez de tentar modelar toda a sua dinâmica.
Banca examinadora
Titulares:
Marcos Medeiros Raimundo | IC/UNICAMP |
Marcos Ricardo Omena de Albuquerque Maximo | ITA |
Fábio Luiz Usberti | IC/UNICAMP |
Suplentes:
Rafael Crivellari Saliba Schouery | IC/UNICAMP |
Fernando José Von Zuben | FEEC/UNICAMP |