End to End Learning for Self-Driving Cars

자율주행차(Self-driving car)가 세간의 화제이다. 자율주행차는 인공지능 응용분야에서 경제적 파급효과가 클뿐더러, 일반인이 인공지능이 우리 생활에 미칠 수 있는 영향을 체감할 수 있다는 점에서 상징적 의미도 큰 프로젝트라고 생각한다. 자율주행 기술은 자동차가 스스로 주행에 필요한 정보를 입력받고 그 정보에 근거하여 주행에 필요한 행동을 인간과 같은 또는 더 나은 수준으로 할 수 있도록 하는 정보처리 및 컨트롤 시스템이다.… End to End Learning for Self-Driving Cars 계속 읽기

Asynchronous Advantage Actor-Critic (A3C)

RL과 신경망의 조합과 관련하여 매우 중요한 전환점이라면 DQN이다. 하지만 이 방법은 많은 저장용량 및 계산량이 요구되며, replay memory로 부터 데이터를 가져오기 때문에 과거의 policy에 의존하여 update를 수행해야 하는 off-policy method일 수 밖에 없는 단점을 가지고 있다. (DQN을 학습시키려면 GPU를 동원해야 하며, GPU도 메모리 용량이 충분해야 한다. DQN의 포스팅에 관련 정보를 제공하였다. 워낙 빨리 발전하다 보니… Asynchronous Advantage Actor-Critic (A3C) 계속 읽기

Value Iteration Networks

이번 포스팅에서는 NIPS 2016에서 Best Paper Award를 받은 paper에서 발표한 VIN(value-iteration network)를  소개하고자 한다. 그동안 이 블로그에서 RL algorithm을 많이 소개했는데, 이 paper 또한 RL과 직접적인 관계가 있으므로 관심있게 내용을 살펴 보았으며, 이번 포스팅에서 논문을 중심으로 하되 설명을 곁들여 소개하고자 한다. VIN 설계에 들어가기 전에 먼저 이와 관련한 기본적 개념부터 살펴보아야 한다. 먼저 value iteration의… Value Iteration Networks 계속 읽기

Deep-Q Network (DQN)

이 포스팅은 Control with Approximation의 후속편이라고 할 수 있다. 그 포스팅에서 value function approximation의 방법으로 신경망을 사용할 수 있다고 언급한바 있다. 이 포스팅은 그 실례로서, action-value function을 신경망중 하나인 CNN(Convolutional Neural Networks)을 사용하여 Q-value을 예측하게된다. 단 Q-value 예측 방법이 Sarsa method와 같이 on-policy method가 아니기 때문에 off-policy method를 사용한다고 볼 수 있다. 이와 같은 개념으로… Deep-Q Network (DQN) 계속 읽기

Deep RL : PG method for Pong game

그동안은 reinforcement learning관련 기본 개념 소개에 시간을 할애하였다. 이론으로 부터 얻어낸 여러 algorithm의 실제 구현예를 보이는 것도 비교적 간단한 문제(toy problem)에 국한하였다. 아무래도 보다 현실적 응용 사례는 application/research 관점에서 접근한 자료를 찾아보는 것이 바람직할 것이다. 이번 포스팅은 그 정도 수준의 project는 아니지만 약간은 흥미로운 고전적 게임에서 RL을 적용한 간단한 예를 다루고자 한다. 알고리즘 인공지능연구에서 개인적… Deep RL : PG method for Pong game 계속 읽기

Actor-Critic Methods

이 포스팅은 policy gradient methods에 이어 RL에서 매우 중요한 methods에 대해 소개하고자 한다. 이전 포스팅에서 잠깐 언급한 actor-critic method에 관한 것이다. 먼저 소개한 REINFORCE-with-baseline method는 policy 및 state value function을 모두 학습하지만, 이것을 actor-critic method라고 하지 않는 이유는 state-value function이 baseline에만 사용되고 critic으로서 사용되지는 않기 때문이다. 즉, 이것은 bootstrapping에 사용되지 않고 baseline으로만 사용된다. Bootstrapping을 통해… Actor-Critic Methods 계속 읽기

Policy Gradient Methods

이번 포스팅은 RL분야에서 최근 대두되는 알고리즘을 소개하고자 한다. 이전 포스팅들은 action-value function을 기반으로 하여 학습을 하는 알고리즘이었다. 즉, action-value를 통해 간접적으로 policy가 결정되는 형태이다. 이번에 소개할 알고리즘은 value function을 구하지 않고도 action을 선택할 수 있는 parameterized policy에 관한 것이다. Value function이 policy weights를 학습하기 위해 여전히 사용될 수도 있지만 action을 선택하는데는 필요하지 않다. 우리는 policy를… Policy Gradient Methods 계속 읽기

On-policy Control with Approximation

이 포스팅은 action value function 에 대한 parametric approximation을 포함한 control problem을 다루고자 한다. Semi-gradient TD(0) algorithm의 action-value 및 on-policy control에로의 적용이라고 할 수 있는 Sarsa에 approximation이 적용될것이다. 또한 continuous application을 위해 discounting 대신에 average reward개념을 사용할 것이다. Episodic Semi-gradient Control Semi-gradient prediction method를 action value에 곧바로 적용가능하다. Action value function의 approximation은 무작위 sample에 대해… On-policy Control with Approximation 계속 읽기

On-policy Prediction with Approximation

이전 포스팅 MCTS에서 큰 search space (또는 state space)에 관한 이야기를 한바있다. 이와 같이 매우 큰 state space를 가진 문제의 경우, 한번도 경험해 보지 못한 새로운 state에 대한 예측능력이 필요하게 된다. 이런 상황에서 대두되는 이슈가 generalization 이다. 즉, 제한된 정보로 학습했지만 폭 넓은 state space에서 좋은 예측이 어떻게 가능할까라는 문제이다. 특히 우리가 관심있는 것은 특정한… On-policy Prediction with Approximation 계속 읽기

Stochastic Gradient Descent Methods

이 포스팅은 Machine Learning의 optimizer로 가장 많이 사용하는 optimization method인 stochastic gradient methods에 관한 내용이다. 사실 거의 모든 ML분야에서 사용하기 때문에 매우 일반적인 기술이 필요한것이 사실이다. wiki에 보면 SGD와 ML에서 자주 사용하는 optimization methods에 대해 잘 기술되어 있다. 그러나, 보다 specific한 입장에서 이것을 살펴보는 것이 이해측면에서 더 유리할 때가 많으므로, 대상을 정하기로 하고 reinforcement learning에서… Stochastic Gradient Descent Methods 계속 읽기