Starcraft AI Player

Atari, OpenAI의 Gym, Mujoco는 그동안 RL연구에서 훌륭한 test bed가 되어 주었다. 그러나 이런 간단한 게임환경을 대상으로 single agent의 성능만을 개선시키려는 알고리즘들은 다른 게임환경에서 한계를 보여주곤 했다. 이러한 면이 항상 아쉬운 모습이었고, multi-agent가 현실과 유사한 복잡한 환경에서 강화학습의 성공이 더 증명되어야 할 필요성이 있었다. 그러므로, 최근에는 변화가 많은 환경에서 agent들의 성능을 개선시키는 노력이 있었고, 더 나아가… Starcraft AI Player 계속 읽기

Soft Actor-Critic

RL에서 exploration과 exploitation간의 trade-off는 자주 얘기되는 문제이다 보니exploration이 중요한 환경에서 인공지능이 local optimum에 빠져버리는 문제를 해결하기 위한 노력이 많이 있다. 이러한 문제를 해결하기 위해 action 선택에 있어 인센티브를 주는 형태로 새로운 환경으로 유도하는 방법(Curiosity-Driven Learning)을 사용하기도 한다. 보통 새로운 RL 모델이 나오면 다양한 게임환경에서 벤치마크테스트를 수행하는데, 여기서 매우 낮은 점수를 보이는 게임이 대부분 exploitation이 중요한… Soft Actor-Critic 계속 읽기

TRPO와 PPO

범용적으로 적용할 수 있는 Reinforcement Learning 알고리즘의 개발은 쉽지 않다. 그러므로, 여전히 새로운 알고리즘이 계속 발표되고 있는데, 오늘은 PPO(Proximal Policy Optimization) 알고리즘에 관한 내용이다. OpenAI의 논문에서 벤치마킹 결과를 보면 이 알고리즘은 여러 분야에 적용가능하고 성능도 매우 우수한것으로 보인다. PPO PPO는 TRPO(Trust Region Policy Optimization)알고리즘에서 기원한 것이다. 이 두 알고리즘은 모두 알고리즘의 안정성을 높이는데 사용된 기술(target… TRPO와 PPO 계속 읽기

Deterministic Policy Gradient

RL분야는 Policy Gradient, 특히 Actor Critic method가 매우 중요한 위치를 차지하고 있다. PG는 수학적 기반이 전 포스팅에서 소개한 Policy Gradient Theorem을 근거로 발전하고 있다. Stochastic policy gradient theorem은 policy를 state space와 더불어 action space의 확률분포를 염두에 두고 있다면, 이번에 소개하는 Deterministic Policy Gradient 알고리즘은 policy를 생각할때 action space에서 특정 action을 선택(deterministic)하면서도 policy를 발전시킬수 있음을 보여준다.… Deterministic Policy Gradient 계속 읽기

Multi-Agent Actor-Critic RL

Atari game을 통해 강화학습의 가능성을 보여준지도 꽤 시간이 지났다. 그 이후 강화학습은 AlphaGo를 통해 다시한번 세상의 이슈가 되었으며, 이 블로그에도 관련 기술을 소개한 바 있다. 이후 DeepMind사는 Starcraft를 상대할 것이라는 이야기가 회자되었다. 하지만 Starcraft game의 정복은 쉽지 않을 것이란 예상이 많았다. 근본적인 이유는 게임 자체가 정해진 틀이 없는 전략 게임이라는 점도 있지만, 다수의 agent들간의 상호… Multi-Agent Actor-Critic RL 계속 읽기

Deep Deterministic Policy Gradient

Policy Gradient에 대한 간단한 소개에 이어, Actor-Critic을 소개하면서 policy gradient에 관한 RL의 기본적인 내용은 기술하였다고 생각한다. 이 방법은 RL분야에서 가장 중요한 방법중의 하나로 널리 사용되고 있으므로 발표된지 오래되었지만 중요한 논문은 정리를 해야할 필요가 있다고 생각한다. 이번에 소개할 논문은 policy gradient theorem에서 파생된 이론으로 RL분야에서는 활용성이 높은 기술이다. Continuous control with deep reinforcement learning 논문 제목이… Deep Deterministic Policy Gradient 계속 읽기

Autonomous driving Robot Car

나에게 simulation으로만 구현하는 로보틱스 프로젝트로는 뭔가 허전하다. 그래서 이번 프로젝트를 시작했다. 생각보다 많은 사람들이 취미로 자신만의 프로젝트를 하는것으로 보이는 아두이노를 이동한 조그마한 로봇카 프로젝트이다. 먼저 내가 구현한 로봇카는 스마트폰을 이용해 블루투스로 조종이 가능하고 초음파 센서를 통해 스스로 장애물과의 충돌을 피하는 로봇카이다. 이에 관한 자료는 인터넷에 널려 있는데다가 로봇을 제어하기 위한 프로그래밍 언어도 대학때 관심있어 배워둔… Autonomous driving Robot Car 계속 읽기

Alpha(Go) Zero

작년말 Deepmind사는 이세돌구단을 4:1로 이긴 AlphaGo Lee  버전보다도 더욱더 강력한 버전의 인공지능 바둑 알고리즘을 발표하였다. 이 버전은 인간을 능가함은 물론이고 그동안의 다른 AlphaGo 버전보다도 훨씬 더 강력한 버전이었으며, 이 알고리즘은 자신의 활동영역을 바둑에 그치지 않았다. 이 알고리즘을 Alpha Zero라고 하는데, 바둑(Go) 뿐만 아니라 다른 게임에도 알고리즘 수정없이 모두 적용 가능하기 때문에 알고리즘 이름에 Go를 빼고… Alpha(Go) Zero 계속 읽기

Evolution Strategies

그 동안 Reinforcement Learning과 관련된 글을 많이 올렸고 현재도 관심을 가질 만한 논문이 계속 발표되고 있다. 최근 RL의 대안으로서, 다른 접근방법을 사용하여 RL에 필적할 만한 성능을 보이는 논문이 발표되었기에 이 논문을 소개하고자 한다. Evolution Strategies as a Scalable Alternative to Reinforcement Learning Background RL에서 적절한 action을 규정하는 policy를 구하기 위해서는 value function을 구하는 단계를 거쳐… Evolution Strategies 계속 읽기