A+A-ContrastAcessibilidade
EnglishPortuguese
Buscar

Defesa de Mestrado de Gabriel Moraes Barros

27 Fev
14:00 Defesa de Mestrado Sala 85 - IC 2
Tema
Imitation Learning for Mobile Robots Control
Aluno
Gabriel Moraes Barros
Orientador / Docente
Esther Luna Colombini
Breve resumo
Na robótica, o objetivo final doaprendizadoé dotar robôs dahabilidade deaprender, melhorar, adaptar e reproduzir tarefas com restrições que mudam dinamicamente baseadosna exploração e no aprendizado autônomo. O Aprendizado por Reforço (AR) procura resolver este problema ao permitir que robôs aprendam por tentativa-e-erro.Entretanto, como o espaço de estados e ações deste problema é, geralmente, contínuo e de alta dimensionalidade, aproximadores de função não lineares são utilizados para encontrar representações de baixa dimensionalidade.Redes Neurais(RN)estão sendo empregadascom relativo sucesso em tarefas de controle e são os aproximadores de funçõesmais utilizados em publicações recentesquando associados à AR.Com AR, uma Rede Neural pode ser treinada para diretamente mapear o estado do robô para comandos dos atuadores, tornando qualquer estrutura de controle pré-definida desnecessária para o treinamento.No entanto, como este conhecimento é geralmente construído do zero, a fase de aprendizado pode levar muito tempoe a definição de uma funçãodereforço capaz de levar à solução adequada do problema pode ser uma tarefa não-trivial. Para mitigar estes problemas, o Aprendizado por Imitação (AI)tem sido empregado parareplicar ou imitar o comportamento de outro agentequando uma função de recompensa explícita não está disponívelou quando se deseja trabalhar sobre supervisão fornecida por um expert. Neste trabalho, o algoritmo Soft Actor-Critic (SAC) éutilizado para treinar uma política de referência em um robô que será empregada como base para geração de trajetórias mais gerais que aquelas treinadas. A partir desta política de referência, um algoritmo de Aprendizado por Imitação– GAIL- aprende a imitaro comportamento das demonstrações do agente expertde forma a extrapolar a política original aprendida.
Banca examinadora
Titulares:
Esther Luna Colombini IC/UNICAMP
Reinaldo Augusto da Costa Bianchi FEI
Hélio Pedrini IC/UNICAMP
Suplentes:
Leonardo Montecchi IC/UNICAMP
Alexandre da Silva Simões ICT/UNESP