TRPO와 PPO

범용적으로 적용할 수 있는 Reinforcement Learning 알고리즘의 개발은 쉽지 않다. 그러므로, 여전히 새로운 알고리즘이 계속 발표되고 있는데, 오늘은 PPO(Proximal Policy Optimization) 알고리즘에 관한 내용이다. OpenAI의 논문에서 벤치마킹 결과를 보면 이 알고리즘은 여러 분야에 적용가능하고 성능도 매우 우수한것으로 보인다. PPO PPO는 TRPO(Trust Region Policy Optimization)알고리즘에서 기원한 것이다. 이 두 알고리즘은 모두 알고리즘의 안정성을 높이는데 사용된 기술(target… TRPO와 PPO 계속 읽기

Deterministic Policy Gradient

RL분야는 Policy Gradient, 특히 Actor Critic method가 매우 중요한 위치를 차지하고 있다. PG는 수학적 기반이 전 포스팅에서 소개한 Policy Gradient Theorem을 근거로 발전하고 있다. Stochastic policy gradient theorem은 policy를 state space와 더불어 action space의 확률분포를 염두에 두고 있다면, 이번에 소개하는 Deterministic Policy Gradient 알고리즘은 policy를 생각할때 action space에서 특정 action을 선택(deterministic)하면서도 policy를 발전시킬수 있음을 보여준다.… Deterministic Policy Gradient 계속 읽기