Exercício 6

Jacques Wainer

O exercicio pode ser feito em grupo de até 3 pessoas

Para o dia 29/5 antes da meia noite

Submeter o pdf com a sua solucão via moodle.

Baseado no Exercício 17.11 do livro texto sem a parte c. A versão em ingles:

17.11 Consider the 4 × 3 world shown in Figure 17.1. a. Implement an environment simulator for this environment, such that the specific geog- raphy of the environment is easily altered. Some code for doing this is already in the online code repository.

Create an agent that uses policy iteration, and measure its performance in the environment simulator from various starting states. Perform several experiments from each starting state, and compare the average total reward received per run with the utility of the state, as determined by your algorithm.

Imagem do ambiente 4x3

Uma boa divisão de tarefa, me parece, é um membro do grupo implementa o simulador, e o outro a interação de politica (e computando o valor/utilidade final de cada estado).

O exercício é voce verificar no simulador, se usando a política ótima, o valor esperado de cada estado (obtido através de multiplas simulações) é igual a utilidade do estado (que é um subproduto da computação da politica ótima.

O exercício pede para voce implementar o algoritmo de interação de política que é um pouco mais complicado que o de interação de valor. Se voce implementar a interação de valor (o mais simples) o exercício vale 8 (e nao 10).