O exercicio pode ser feito em grupo de até 3 pessoas
Para o dia 29/5 antes da meia noite
Submeter o pdf com a sua solucão via moodle.
Baseado no Exercício 17.11 do livro texto sem a parte c. A versão em ingles:
17.11 Consider the 4 × 3 world shown in Figure 17.1. a. Implement an environment simulator for this environment, such that the specific geog- raphy of the environment is easily altered. Some code for doing this is already in the online code repository.
Uma boa divisão de tarefa, me parece, é um membro do grupo implementa o simulador, e o outro a interação de politica (e computando o valor/utilidade final de cada estado).
O exercício é voce verificar no simulador, se usando a política ótima, o valor esperado de cada estado (obtido através de multiplas simulações) é igual a utilidade do estado (que é um subproduto da computação da politica ótima.
O exercício pede para voce implementar o algoritmo de interação de política que é um pouco mais complicado que o de interação de valor. Se voce implementar a interação de valor (o mais simples) o exercício vale 8 (e nao 10).