O exercicio pode ser feito em grupo de até 3 pessoas
Para o dia 14/6 antes da meia noite
Submeter o pdf com a sua solucão via moodle.
Baseado no Exercício 21.1 do livro texto sem a ultima pergunta. A versão em ingles:
Implement a passive learning agent in a simple environment, such as the 4 × 3 world. For the case of an initially unknown environment model, compare the learning performance of the direct utility estimation, TD, and ADP algorithms. Do the comparison for the optimal policy and for several random policies. For which do the utility estimates converge faster?
Essa tarefa é uma continuação da tarefa passada. O simulador vc ja tem. E a política ótima tambem (do exercício 6)
É so rodar o TD e o ADP para uma ou 2 politicas aleatórias e para a politica ótima, e verificar a velocidade que essas alternativa convergem para uma avaliação do U^\pi