Planning에 대한 두가지 관점이 있다. 지금까지의 관점은 dynamic programing이나 Dyna에서처럼, planning을 모든 state에 대한 policy 또는 value의 점진적 개선으로 보는 것이다. 다른 하나의 관점은 planning의 결과물이 policy가 아니고 action의 결정이라는 관점이다. 여기서는 action 선택으로서의 planning 관점을 살펴보기로 하자. Planning을 action selection의 관점에서 본다손 치더라도, 우리는 이것을 여전히 전과 같이 simulated experience로부터 backup과 value를 거쳐 결국은… Heuristic Search | MCTS 계속 읽기
