19 out 2021
10:00 Defesa de Mestrado Integralmente a distância
Tema
Aplicação de Aprendizado de Reforço Profundo na Locomoção de Robôs Humanóides
Aluno
Renata Falguera Gonçalves
Orientador / Docente
Esther Luna Colombini
Breve resumo
Os rápidos avanços da robótica, como o constante crescimento de seu uso em aplicações de serviços, impulsionam a área em busca de robôs que possam operar em diferentes ambientes projetados para humanos. Em particular, os robôs humanóides são muito úteis para várias tarefas de serviço, uma vez que podem navegar e interagir com ambientes de forma semelhante aos humanos. Porém, a locomoção bípede tem se mostrado um desafio na teoria e na prática devido à dificuldade de desenvolver a estabilidade estática e dinâmica do andar e à complexa coordenação motora para uma amplitude de movimento suficiente. Concomitantemente, os métodos Aprendizado por Reforço Profundo (DRL) estão se tornando uma proposta proeminente para resolver problemas de controle desafiadores em robótica devido à sua capacidade de trabalhar em processos contínuos e sem modelos. No entanto, é difícil prever as mudanças de resultados feitas na função de recompensa, na arquitetura da política e no conjunto de tarefas sendo treinadas. Portanto, propomos uma estrutura de política interativa que combina DRL e amostras de Estado Estocástico de Ação Determinística (DASS) para permitir que a função de recompensa seja totalmente redefinida em cada iteração de design sucessiva, enquanto limita o desvio da iteração anterior. As amostras DASS representam pares de ação-estado de política determinística amostrados dos estados visitados por uma política estocástica treinada. Por meio do uso de um método Soft Actor-Critic (SAC), as políticas são treinadas, o que mistura a política baseada em RL com as atualizações definidas pelo DASS. A eficácia dessa abordagem de política iterativa será demonstrada na simulação do modelo do robô humanóide Marta, desenvolvido pelos grupos de trabalho GASI (Unesp) e LaRoCs (Unicamp).
Banca examinadora
Titulares:
Esther Luna Colombini IC/UNICAMP
Paulo Fernando Ferreira Rosa DCT/IME
Isaac Jesus da Silva FEI
Suplentes:
Eric Rohmer FEEC/UNICAMP
Reinaldo Augusto da Costa Bianchi FEI