R = np.mean(compute_J(dataset))
E = agent.policy.entropy()
tqdm.write("END OF EPOCH " + str(it))tqdm.write("J: {}, R: {}, entropy: {}".format(J, R, E))
tqdm.write("////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////")
print("Press a button to visualize")
input()
After Change
R = np.mean(compute_J(dataset))
E = agent.policy.entropy()
logger.epoch_info(it+1, J=J, R=R, entropy=E)
logger.info("Press a button to visualize")
input()
core.evaluate(n_episodes=5, render=True)