30 set 2025
10:00 Defesa de Mestrado Por videoconferência
Tema
Aprendizado por Reforço Offline Para Controle de Veículos Aéreos Não Tripulados
Aluno
Rafael Figueiredo Prudencio
Orientador / Docente
Esther Luna Colombini
Breve resumo
O aprendizado por reforço (RL) emergiu como um paradigma poderoso para o treinamento de agentes autônomos. No entanto, sua dependência da coleta de dados ativa dificulta sua aplicação em cenários do mundo real, onde a coleta de dados é cara ou perigosa. O offline RL, que aprende a partir de conjuntos de dados pré-existentes, oferece uma solução promissora. Este trabalho explora a aplicação de RL offline no desafiador domínio de controle de Veículos Aéreos Não Tripulados (VANTs). Nós hipotetizamos que métodos offline de aprendizado por imitação e de poucos passos podem ajudar a superar políticas online saturadas, e que uma representação de estado e função de recompensa simplificadas podem melhorar ainda mais o desempenho de políticas aprendidas com offline RL. Nossos resultados mostram que, com um conjunto de dados suficientemente diverso, algoritmos de RL offline podem ser usados para treinar com sucesso políticas de controle de VANTs que superam os métodos tradicionais de aprendizado online. Concluímos que, ao projetar cuidadosamente o espaço de observação, a função de recompensa e a política de coleta de dados, o RL offline pode ser um paradigma poderoso para aplicações do mundo real.
Banca examinadora
Titulares:
Esther Luna Colombini IC/UNICAMP
Isaac Jesus da Silva FEI
Marcos Medeiros Raimundo IC/UNICAMP
Suplentes:
Paulo Roberto Ferreira Júnior UFPel
João Paulo de Andrade Dantas IEAv/DCTA