Multi-Agent Actor-Critic RL

Atari game을 통해 강화학습의 가능성을 보여준지도 꽤 시간이 지났다. 그 이후 강화학습은 AlphaGo를 통해 다시한번 세상의 이슈가 되었으며, 이 블로그에도 관련 기술을 소개한 바 있다. 이후 DeepMind사는 Starcraft를 상대할 것이라는 이야기가 회자되었다. 하지만 Starcraft game의 정복은 쉽지 않을 것이란 예상이 많았다. 근본적인 이유는 게임 자체가 정해진 틀이 없는 전략 게임이라는 점도 있지만, 다수의 agent들간의 상호… Multi-Agent Actor-Critic RL 계속 읽기

Deep Deterministic Policy Gradient

Policy Gradient에 대한 간단한 소개에 이어, Actor-Critic을 소개하면서 policy gradient에 관한 RL의 기본적인 내용은 기술하였다고 생각한다. 이 방법은 RL분야에서 가장 중요한 방법중의 하나로 널리 사용되고 있으므로 발표된지 오래되었지만 중요한 논문은 정리를 해야할 필요가 있다고 생각한다. 이번에 소개할 논문은 policy gradient theorem에서 파생된 이론으로 RL분야에서는 활용성이 높은 기술이다. Continuous control with deep reinforcement learning 논문 제목이… Deep Deterministic Policy Gradient 계속 읽기

Autonomous driving Robot Car

나에게 simulation으로만 구현하는 로보틱스 프로젝트로는 뭔가 허전하다. 그래서 이번 프로젝트를 시작했다. 생각보다 많은 사람들이 취미로 자신만의 프로젝트를 하는것으로 보이는 아두이노를 이동한 조그마한 로봇카 프로젝트이다. 먼저 내가 구현한 로봇카는 스마트폰을 이용해 블루투스로 조종이 가능하고 초음파 센서를 통해 스스로 장애물과의 충돌을 피하는 로봇카이다. 이에 관한 자료는 인터넷에 널려 있는데다가 로봇을 제어하기 위한 프로그래밍 언어도 대학때 관심있어 배워둔… Autonomous driving Robot Car 계속 읽기

Alpha(Go) Zero

작년말 Deepmind사는 이세돌구단을 4:1로 이긴 AlphaGo Lee  버전보다도 더욱더 강력한 버전의 인공지능 바둑 알고리즘을 발표하였다. 이 버전은 인간을 능가함은 물론이고 그동안의 다른 AlphaGo 버전보다도 훨씬 더 강력한 버전이었으며, 이 알고리즘은 자신의 활동영역을 바둑에 그치지 않았다. 이 알고리즘을 Alpha Zero라고 하는데, 바둑(Go) 뿐만 아니라 다른 게임에도 알고리즘 수정없이 모두 적용 가능하기 때문에 알고리즘 이름에 Go를 빼고… Alpha(Go) Zero 계속 읽기

Transfer Learning : TensorFlow Hub

Google은  최근 TensorFlow Hub이라는 library를 발표하고, transfer learning이 용이하도록 library를 제공하였다.  기존에 개발된 많은 모델과 dataset을 이용하여 이미 학습된 정보를 모두 포함하고 있는 module을 그대로 차용하여 다른 프로젝트에 활용하는 것이 transfer learning의 핵심 개념이다. 이러한 방법이 없다면, Deep Learning을 통한 application 개발은 많은 데이터와 연산능력을 확보한 조직의 전유물이 될수 밖에 없을 것이다. 다행스럽게 이 모든… Transfer Learning : TensorFlow Hub 계속 읽기

Google Object Detection API

여전히 관심 있는 분야에 대해 시간 나는데로 자료을 읽고 공부하지만 블로그에 올리지 않았다. 사실 시간이 부족한 상황에서 블로그에 글쓰는 시간 조차도 아깝다는 생각이 들기도 하지만… 정리를 한다는 면에서는 블로그에 계속 글을 올리는 것이 좋다는 생각에는 변함이 없다. Google은 작년에 자신들이 개발해 놓은 Object Detection(사물인식) API를 공개했다. 이미지 인식용으로 개발된 수많은  CNN 모델을 쉽게 사용할 수… Google Object Detection API 계속 읽기

Sensors

이미 보아 왔듯이, 설령 로봇이 한 시점에서 주변환경에 대한 정보와 하나의 목표를 가지고 있다고 하더라도 실제 일을 수행하는 문제는 단순하지가 않을 것이다. 그 목표를 달성하기 위해서는 좋은 planning과 action을 수행해야 하기 때문이다. 여기서 더 문제를 어렵게 만드는 요인은 주변환경이 시작한 시점과 동일하지 않을 가능성도 높고, 임무 수행중에 자기 자신의 pose가 계속 변한다는 사실이다. 이러한 변화에… Sensors 계속 읽기