Defesa de Mestrado de Guilherme Cano Lopes

Título do Trabalho
Controle Inteligente de um Quadricóptero por Aprendizado por Reforço
Candidato(a)
Guilherme Cano Lopes
Nível
Mestrado
Data
Add to Calender 2018-10-23 00:00:00 2018-10-23 00:00:00 Defesa de Mestrado de Guilherme Cano Lopes Controle Inteligente de um Quadricóptero por Aprendizado por Reforço Auditório do IC 2 - Sala 85 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
14h00
Local
Auditório do IC 2 - Sala 85
Orientador(a)
Esther Luna Colombini
Banca Examinadora

Titulares  - Professores Doutores

Unidade/Instituição

Esther Luna Colombini

IC/UNICAMP

Carlos Henrique Costa Ribeiro

ITA

Hélio Pedrini

IC/UNICAMP

Suplentes  - Professores Doutores

Unidade/Instituição

Gerberth Adin Ramirez Rivera

IC/UNICAMP

Alexandre da Silva Simões

UNESP

Resumo

Os quadrotores (ou quadricópteros) são sistemas inerentemente instáveis. Em diversos trabalhos anteriores
abordou-se a tarefa de estabilizar o vôo de um quadrotor usando
Controle Proporcional, Integral e Derivativo (PID), Regulador
Quadrático Linear (LQR), Controle de Modo Deslizante (SMC), Controle
de Backstepping, Adaptive Controle, Controle Robusto, Controle Ótimo,
entre outros métodos. A maioria das abordagens baseia-se em um modelo
matemático do quadrotor e sua dinâmica, que é não-linear e pode
apresentar imprecisões devido à impossibilidade de modelar todos os
aspectos do comportamento dinâmico do veículo. Uma alternativa às
técnicas de controle anteriores pode ser obtida com controladores
inteligentes, desenvolvendo um agente controlador obtido por meio de
técnicas de otimização e aprendizado de máquina, como o aprendizado de
reforço associado à técnicas do estado da arte. Resumidamente, um
algoritmo de aprendizado por reforço aprimora uma política, comumente
representada como uma rede neural que mapeia um determinado estado
para um conjunto de ações correspondentes. Esse mapeamento é definido
de acordo com uma função de recompensa que modela o comportamento
desejado de um agente.
Neste trabalho, mostrou-se a viabilidade de aplicar métodos de
aprendizado por reforço para otimizar uma política estocástica
(durante o treinamento), com o objetivo de realizar o controle de
posição do drone "livre de modelo", mantendo-se uma boa eficiência de
amostragem, mesmo com o uso de um simulador sofisticado. Foi utilizado
o algoritmo Proximal Policy Optimization (PPO) para o aprendizado da
política, e diferentes funções de recompensa foram avaliadas, visando
melhorar a qualidade do controle de vôo em diferentes trajetórias. Os
experimentos para o controlador inteligente obtido foram realizados
com auxílio do simulador V-REP, que conta com o motor de simulação de física Vortex.