Weight Agnostic Neural Networks

Meta Learning분야에서 유명한 논문중에 Model-Agnostic Meta Learning이라는 논문이 있다. Agnostic이라는 단어가 특이해서 기억하고 있는데, 같은 단어를 사용하는 논문이 발표되었다. 매우 흥미로운 논문이라 소개하고자 한다. 이 글의 제목이 그 논문의 제목이다. 이 논문의 촛점은 Neural Network Architecure(구조)에 관한 내용이다. 우리는 이미지 분야의 신경망에 매우 다양한 신경망이 개발되었고 그 신경망마다 고유의 이름을 갖고 있다는 것을 알고 있다.… Weight Agnostic Neural Networks 계속 읽기

Starcraft AI Player

Atari, OpenAI의 Gym, Mujoco는 그동안 RL연구에서 훌륭한 test bed가 되어 주었다. 그러나 이런 간단한 게임환경을 대상으로 single agent의 성능만을 개선시키려는 알고리즘들은 다른 게임환경에서 한계를 보여주곤 했다. 이러한 면이 항상 아쉬운 모습이었고, multi-agent가 현실과 유사한 복잡한 환경에서 강화학습의 성공이 더 증명되어야 할 필요성이 있었다. 그러므로, 최근에는 변화가 많은 환경에서 agent들의 성능을 개선시키는 노력이 있었고, 더 나아가… Starcraft AI Player 계속 읽기

Soft Actor-Critic

RL에서 exploration과 exploitation간의 trade-off는 자주 얘기되는 문제이다 보니exploration이 중요한 환경에서 인공지능이 local optimum에 빠져버리는 문제를 해결하기 위한 노력이 많이 있다. 이러한 문제를 해결하기 위해 action 선택에 있어 인센티브를 주는 형태로 새로운 환경으로 유도하는 방법(Curiosity-Driven Learning)을 사용하기도 한다. 보통 새로운 RL 모델이 나오면 다양한 게임환경에서 벤치마크테스트를 수행하는데, 여기서 매우 낮은 점수를 보이는 게임이 대부분 exploitation이 중요한… Soft Actor-Critic 계속 읽기

자연어처리(NLP)-BERT

자연어처리(Natural Language Processing)분야는 인공지능기술중 RNN에 기반한 모델이 대부분이었다. 언어라는 것이 일련의 단어들로 이루어진다고 생각할 때 최고의 방법은 아니더라도 자연스러운 접근방법이라고 할 수 있겠다. 언어처리를 위해 문장을 단어 단위로 분해하는 tokenizing과정을 거치고 단어의 벡터화를 위한 embedding기술(Word2Vec, GloVe)을 이용하여 LSTM이나 GRU와 같은 RNN에 입력시켜 중간결과를 얻어내는 과정을 Encoder라고 하며, Encoder의 Output을 사용하여 최종출력을 얻어내는 과정을 Decoder라고 한다.… 자연어처리(NLP)-BERT 계속 읽기

TRPO와 PPO

범용적으로 적용할 수 있는 Reinforcement Learning 알고리즘의 개발은 쉽지 않다. 그러므로, 여전히 새로운 알고리즘이 계속 발표되고 있는데, 오늘은 PPO(Proximal Policy Optimization) 알고리즘에 관한 내용이다. OpenAI의 논문에서 벤치마킹 결과를 보면 이 알고리즘은 여러 분야에 적용가능하고 성능도 매우 우수한것으로 보인다. PPO PPO는 TRPO(Trust Region Policy Optimization)알고리즘에서 기원한 것이다. 이 두 알고리즘은 모두 알고리즘의 안정성을 높이는데 사용된 기술(target… TRPO와 PPO 계속 읽기

Deterministic Policy Gradient

RL분야는 Policy Gradient, 특히 Actor Critic method가 매우 중요한 위치를 차지하고 있다. PG는 수학적 기반이 전 포스팅에서 소개한 Policy Gradient Theorem을 근거로 발전하고 있다. Stochastic policy gradient theorem은 policy를 state space와 더불어 action space의 확률분포를 염두에 두고 있다면, 이번에 소개하는 Deterministic Policy Gradient 알고리즘은 policy를 생각할때 action space에서 특정 action을 선택(deterministic)하면서도 policy를 발전시킬수 있음을 보여준다.… Deterministic Policy Gradient 계속 읽기