On-policy Prediction with Approximation

이전 포스팅 MCTS에서 큰 search space (또는 state space)에 관한 이야기를 한바있다. 이와 같이 매우 큰 state space를 가진 문제의 경우, 한번도 경험해 보지 못한 새로운 state에 대한 예측능력이 필요하게 된다. 이런 상황에서 대두되는 이슈가 generalization 이다. 즉, 제한된 정보로 학습했지만 폭 넓은 state space에서 좋은 예측이 어떻게 가능할까라는 문제이다. 특히 우리가 관심있는 것은 특정한… On-policy Prediction with Approximation 계속 읽기

Stochastic Gradient Descent Methods

이 포스팅은 Machine Learning의 optimizer로 가장 많이 사용하는 optimization method인 stochastic gradient methods에 관한 내용이다. 사실 거의 모든 ML분야에서 사용하기 때문에 매우 일반적인 기술이 필요한것이 사실이다. wiki에 보면 SGD와 ML에서 자주 사용하는 optimization methods에 대해 잘 기술되어 있다. 그러나, 보다 specific한 입장에서 이것을 살펴보는 것이 이해측면에서 더 유리할 때가 많으므로, 대상을 정하기로 하고 reinforcement learning에서… Stochastic Gradient Descent Methods 계속 읽기

Heuristic Search | MCTS

Planning에 대한 두가지 관점이 있다. 지금까지의 관점은 dynamic programing이나 Dyna에서처럼, planning을 모든 state에 대한 policy 또는 value의 점진적 개선으로 보는 것이다.  다른 하나의 관점은 planning의 결과물이 policy가 아니고 action의 결정이라는 관점이다. 여기서는 action 선택으로서의 planning 관점을 살펴보기로 하자. Planning을 action selection의 관점에서 본다손 치더라도, 우리는 이것을 여전히 전과 같이 simulated experience로부터 backup과 value를 거쳐 결국은… Heuristic Search | MCTS 계속 읽기

Planning and Learning with Tabular Methods

이 포스팅에서는 environment model이 필요한 methods(such as dynamic programing and heuristic search)와 모델이 없이 학습하는 methods(such as Monte Carlo and temporal-difference)를 통합하는 관점을 알아 보기로 하자. planning과 learning  methods를 통합하는 방법에 관한 것이다. Models and Planning Environment model이라고 하면, 그 어떤것이라도 agent의 action에 environment가 어떻게 반응하는지 예측할 수 있는 것을 의미한다. 즉, state와 action이 주어지면,… Planning and Learning with Tabular Methods 계속 읽기

Temporal-Difference Learning

RL의 가장 중요한 아이디어라고 한다면, 의심할 여지도 없이 temporal-difference (TD) learning이다. TD learning은 Monte Carlo와 dynamic programing 아이디어를 조합한 것이다. TD learning은 Monte Carlo method처럼 environment dynamics에 관한 model이 없이도 순수한 경험(experience)만으로도 직접 학습이 가능하며, DP처럼 episode가 종료되기까지 기다리지 않아도 다른 예측치를 기반으로 value function의 update가 가능하다(이것을 bootstrap이라는 용어를 사용하여 설명하였다). TD, DP 그리고 Monte… Temporal-Difference Learning 계속 읽기

Monte Carlo Methods

이제 실제로 value function을 예측하고 optimal policy를 찾아내는 learning method를 시작해 보자. DP에서는 기본적으로 environment dynamics을 안다고 가정하였으나, 여기서는 이것을 가정하지 않는다. 대신에 MC method는 environment와의 모의(simulated) 또는 실제(actual) interaction을 통해 얻은 states, action, rewards가 포함된 sample이라고 불리우는 경험(experience)을 이용한다. 실제 경험을 통한 학습은 environment dynamics를 전혀 모르지만 optimal behavior를 찾아 낼 수 있다는 점에서… Monte Carlo Methods 계속 읽기

Dynamic Programming

Dynamic programing (DP)은 Markov decision process (MDP)인 environment에 대한 완전한 모델 (model)이 주어졌을때 optimal policy를 구해내는 모든 알고리즘을 지칭한다. 기존의 DP algorithm은 완전한 model이 필요하다는 점과, 많은 computing cost가 요구된다는 점에서 활용성이 떨어지지만, reinforcement learning을 이해하는 기초가 된다는 점에서 여전히 이론적으로 중요한 의미를 가진다. DP나 RL의 핵심은 옳바른 policy를 찾기위한 제반의 노력들이 value function을 이용한다는… Dynamic Programming 계속 읽기

Markov Decision Processes

이제 RL이 해결하고자 하는 대상인 environment로 관심을 돌릴 때이다. Agent는 environment에서 오는 시그날인 state에 따라 판단하여 결정을 내린다. 여기서, state라고 함은 agent가 받아들이는 모든 정보(information)을 의미한다. 이 state information은 가공되지 않은 information일 수 도 있고, 기본 정보를 이용항 가공된 정보일 수도 있다. 단지 agent가 판단(decision-making)에 이용할 수 있는 정보형태이면 된다. State 정보가 agent의 판단에 이용된다고… Markov Decision Processes 계속 읽기

Reinforcement Learning Concepts

강화학습(Reinforcement Learning)을 시작하기 전에 먼저 RL을 통해 수행하려는 문제의 framework는 어떤 구조인지 먼저 살펴보는 것이 순서일 것이다. 특이 여기서 설명하는 개념은 매우 중요하므로 충분한 시간을 가지고 숙고할 필요가 있다. RL problem이란 무엇인가? 목표를 달성하기 위해 interaction을 통해 학습하는 일련의 과정이라고 할 수 있다. 여기서 학습자(learner) 또는 결정권자(decision maker)를 agent라고 하며, 이 agent가 interaction하는 대상을 environment라고… Reinforcement Learning Concepts 계속 읽기

Convolutional Neural Networks

CNN관련 가장 유명한 자료가 Stanford University의 CS231n강좌이다. 이 강좌는 워낙 유명해서 인지 neural network를 공부하는 사람들이 대부분 참고하는 자료이므로 AI Korea team이 이강좌를 한글로 번역 작업을 수행하였고 그 결과를 아래 사이트에 올려 놓았다. 영어에 문제가 없는 사람은 github에 올라와 있는  사이트를 참조해도 좋다. 같은 내용을 또다시 번역할 필요는 없으므로 추가 설명이 필요한 부분에 대한 설명이나,… Convolutional Neural Networks 계속 읽기