본문 바로가기

Enginius/Robotics

RL for real robots

한번 related work 정리를 해보자. 논문은 편의상 제목만 적는 걸로 하자. 


몇 개의 키워드를 놓자. 

Imitation-Learning, RL, Stochastic-policy, Real-world, Locomotion, Safe-constraint, Curriculum, D, E




The Predictron: End-To-End Learning and Planning, 2017

Imitation-Learning


: 딥마인드의 '그' David Silver가 1저자로 쓴 논문이다. 

The predictron은 a Markov reward process를 이용해서, 미래에 얻을 수 있는 reward의 합을 예측한다. 제안한 방법론은 learning과 planning을 하나의 end-to-end 학습을 이용해서 얻는다. 각 단계 마다, 모델은 다음 번의 state, reward, discount, and value estimate를 produce하고, 결국 최종 목적은 하나의 value를 잘 예측하는데 있다. 이렇게 value를 잘 예측하면 가장 놓은 value가 나오는 action을 매번 선택한다. 



Stochastic Neural Networks for Hierarchical Reinforcement Learning, 2017

RL, Stochastic-policy


: 강화 학습 논문이다. 

강화 학습이 기존에 멋진 예제들에 대해서 많이 활용이 되었었지만, tasks with sparse reward이거나 long-horizon 문제에 대해서는 significant challenge가 있었다. 이러한 문제를 해결하기 위해서 이 논문에서는 a general framework that learns useful skills in a pre-training environment and then leverages the acquired skills for learning faster in the downstream tasks. 

이 논문은 계층 구조를 갖는 강화 학습 문제를 이용해서 이를 푼다. 구체적으로는 useful skill을 학습하는데는 하나의 간단한 reward를 통해서 구해진다. 그리고 high-level policy는 이러한 skills 위에 학습된다 (trained on top of these skills). 


Sparse Markov Decision Processes with Causal Sparse Tsallis Entropy Regularization for Reinforcement Learning, 2018

: RL, Stochastic-policy


: 우리 논문이다. 여기서는 Tsallis entropy라는 새로운 policy regularizer를 도입해서 결과적으로 policy가 stochastic해진다. 


Safe Model-based Reinforcement Learning with Stability Guarantees, 2017

RL, Real-world, Safe-constraint


: 강화 학습은 explore all possible action을 고려해야하는데 이는 may be harmful to real-work systems. 

This paper presents a learning algorithm that explicitly considers safety in terms of stability guarantees using the control-theoretic results on Lyapunov stability verification. 

: 결국 stability 문제를 다룬건가? We have shown how classical reinforcement learning can be combined with safety constraints in terms of stability. How to safely optimize policies and give stability certificates based on dynamic models and provided theoretical safety and exploration guarantees for an algorithm. 

: 실험은 inverted pendulum을 다뤘다. 근데 학습을 하면서 pendulum이 떨어지지 않았다? (without the pendulum ever falling down)

: First step toward safe RL algorithms that are applicable to real-world problems. (멋있다.)


Robust Imitation of Diverse Behaviors, 2017

Learning, Stochastic-policy, Real-world, Imitation-Learning


: 기존에 behavior cloning을 cascaded failure에 취약하고, GAIL이 조금 나아보이기는 하지만, GAN 구조가 가지고 있는 inherently mode-seeking behavior를 보이기 힘들어서 학습하기가 힘들다. (고 한다.) 

: 이 논문에서는 모방 학습을 생각한다. 근데 variational autoencoder (VAE) 구조를 차용한다. 그래서 new version of GAIL을 제안하고, 이는 behavior cloning 보다는 much more robust하다고 하고, mode callapse를 잡는다, 고 한다. 

: 이 논문에서 말하기로는 VAE는 다양한 행동들을 모델링 할 수 있는 robust하지는 않고, GAN은 robust하지만 다양하지는 않는다고 한다. 

: 일반적으로 우리가 likelihood를 키우는 문제를 다룬다고 했을 때, 차원이 커지면 다루기가 힘들어진다. 이를 효과적으로 해결할 수 있는 방법 중 하나가 바로 auto-regressive model이다. 

: 우리가 제안하는 방법과 비교해 봤을 때 우리는 GRP를 이용해서 고차원 궤적을 다룬다고 할 수 있고, 이 논문에서는 auto-regressive model을 이용한다고 볼 수 있다. 

: 이 논문에서는 diverse GAIL을 제안한다. 특히 q의 z가 가우시안이고, 여기서 샘플된것이 sequence model의 입력으로 들어가서 trajectory가 나온다. 


Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control, 2017

RL


: 기존에 있는 많은 policy gradient 방법론들을 비교한 논문이다. (TRPO, DDPG, 등등)

: 대단하다..


Reinforcement Learning with Deep Energy-Based Policies, 2017

RLStochastic-policy


: Energiy-based policy를 찾는 RL을 제안한다. Optimal policy의 형태가 Boltzmann distribution을 따르게 하는 soft-Q learning 방법론을 제안한다. 

: 물론 이 방법은 action의 수가 discrete한 경우에만 사용 가능하다. 


Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning, 2017

RL


: 이 논문에서는 Q-learning으로 대표되는 off-policy RL과 policy gradient로 대표되는 on-policy RL을 섞는다. Off-policy는 sample efficiency가 있고, on-policy는 학습이 더 안정적이고, 사용하기가 쉽다는 각각의 장점이 있다. 

: In this paper, we introduced interpolated policy gradient methods, a family of policy gradient algorithms that allow mixing off-policy learning with on-policy learning while satisfying performance bounds.


Imitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation, 2017

Imitation-Learning, Real-world


: Raw video를 통해서 모방 학습을 구현한다. 특히 서로 다른 view-point에서 바라본 time-aligned image sequences가 있는 경우에 한쪽 domain에서 다른 쪽 도메인으로 옮기는 translation model을 학습하는 것이 main contribution이다. 이 translation model을 이용해서 reward function을 모델링하고, 강화 학습으로 feature tracking을 시킨다. 


Imitating Driver Behavior with Generative Adversarial Networks, 2017

Imitation-Learning,  Stochastic-policy (GAN)


: GAIL을 이용해서 자율 주행에 사용될 수 있는 사람의 운전을 모방하였다. 


Hindsight Experience Replay, 2017

RL, Real-world, Curriculum


: 이 논문에서는 hindsight experience replay라는 방법을 통해서 sparse reward를 해결하려고 했다. off-policy learning 방법론 (PG)에 적용이 가능하다고 한다. 

: 이 방법이 일종에 curriculum learning으로 해석될 수 있다고 한다. 

=> HER may be seen as a form of implicit curriculum as the goals used for replay naturally shift from ones which are simple to achieve even by a random agent to more difficult ones. 


Equivalence Between Policy Gradients and Soft Q-Learning, 2017

RLStochastic-policy


: 여기서 나오는 soft Q-learning이 action이 Boltzmann distribution을 갖게 하는 RL이다. 즉 Energy-regularized RL을 푸는 것과 policy gradient이의 관계를 reveal하는 논문이다. 구체적으로는 gradient of soft Q-learning이 policy gradient가 되는 것을 보였다. 


DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning, 2017

RL, Locomotion


: This paper presented a hierarchical learning-based framework for 3D bipedal walking skills by adopting a two-level hierarchical control framework. First, robust low-level controllers are learned that operate at a ne timescale and which achieve robust walking gaits that satisfy stepping-target and style objectives. Second, high-level controllers are then learned which plan at the timescale of steps by invoking desired step targets for the low-level controller.

: 즉 일단 low-level controller는 강인하게 움직일 수 있게 하는 동작들을 학습하고, high-level planner는 여러 종류의 terrain을 지나가거나, static or dynamic obstacle 사이를 잘 움직이게 한다. 


Bridging the Gap Between Value and Policy Based Reinforcement Learning, 2017

RLStochastic-policy


: This paper establishs a new connection between value and policy based reinforcement learning (RL) based on a relationship between softmax temporal value consistency and policy optimality under entropy regularization.


Automated Curriculum Learning for Neural Networks, 2017

Curriculum


: 커리큘럼 러닝을 자동화 시켜서 학습 속도를 accerate할 수 있었다는 것이 주된 contribution이다. 

: synthetic language modelling task에 적용하였다. 


A Distributional Perspective on Reinforcement Learning, 2017

RLStochastic-policy


: 정확히 말하면 stochastic policy를 찾는 것은 아니고, value function을 찾는 것 보다 value distribution을 찾는 방법론을 제안한다. Presented a distributional Bellman optimality operator that can optimize an approximating distribution of the value function. 


Trust Region Policy Optimization, 2016

RL


: 말이 필요 없는 TRPO


Model-Free Episodic Control, 2016

RL


: 딥마인드, 빠르게 학습 하는 것에 집중한다. This paper presented a fast-learning system based on non-parametric memorization of experience. 

: 이 논문의 경우는 기존의 강화 학습이 너무 느리다는 것을 강조할 때 사용하는 것이 좋을 것 같다. 

: This work tackles a critical deficiency in current reinforcement learning systems, namely their inability to learn in a one-shot fashion.


Model-based Adversarial Imitation Learning, 2016

RL


: GAIL의 model-based version이다. model이 있기 때문에 policy gradient 방법론을 중간에 사용할 필요가 없어서 학습이 쉬워진다. 특히 forward model이 differentiable해지기 때문에 environment와 interaction을 덜 해도 되고, 이로 인해서 학습 속도가 빨라진다. 


Concrete Problems in AI Safety, 2016

RL, Stochastic-policyReal-world, Safe-constraint


: 여러 중요한 문제들을 언급한다. 아래 다섯 가지를 집중한다. 

1) Avoiding negative side effects: 청소 로봇이 다 부시고 다닌다.

2) Avoid reward hacking: For example, if we reward the robot for achieving an environment free of messes, it might disable its vision so that it won’t find any messes

3) Safe exploration: RL에서 새로운 것을 시도하다가 위험해질 수 있다. 

4) Robustness to Distributional Shift: 새로운 환경에서 어떻게 잘 동작할지?


Reducing Hardware Experiments for Model Learning and Policy Optimization, 2015

RL, Real-worldLocomotion


: 하세훈 박사님과 캇츄의 논문이다. 실제 환경에서 실험을 할 때 여러번 시도를 하는 것이 어려우니까 가지고있는 모델과 실제 다이나믹스 사이의 residual을 학습하고, 이를 바탕으로 policy optimization을 한다. 

: 결국 실제 로봇을 조금 더 빨리 학습 시키기 위해서 더 정확한 시뮬레이터를 만드는 과정으로 봐도 될 것 같다. 

: 속도를 빠르게 하자! 가 중요한 컨트리뷰션이다. 


Learning Continuous Control Policies by Stochastic Value Gradients, 2015

RLStochastic-policy


: 이 논문에서는 stochastic value gradient method라는 새로운 방법을 제안한다. 이를 위해서 reparametrization trick을 이용해서 stochastic Bellman equation을 통해 backpropagation하는 새로운 방법론을 제안한다. 

: 이 논문은 stochastic policy의 필요성에 대해서 언급할 때 써도 좋을 것 같다. 

: Stochastic policies have several advantages: for example, they can be beneficial for partially observed problems [24]; they permit on-policy exploration; and because stochastic policies can assign probability mass to off-policy trajectories, we can train a stochastic policy on samples from an experience database in a principled manner.


Development of a Bipedal Robot that Walks Like an Animation Character, 2016

 Real-worldLocomotion


: 김주형 박사님과 송성문 박사님이 쓴 디즈니 논문

: we generate an open-loop walking trajectory that mimics the character’s walking motion by modifying the motion such that the Zero Moment Point stays in the contact convex hull.


Generalizing Locomotion Style to New Animals With Inverse Optimal Regression, 2014

Real-worldLocomotion


: 기존에 있는 동물들이 gait motion을 통해서 새로운 동물이 주어졌을 때 이 동물의 gait를 찾는 방법이다. 이를 위해서 inverse optimization with sparse data interpolation을 이용했다. 즉 inverse optimization을 통해서 특정 gait를 표현할 수 있는 파라미터를 찾아내고, 새로운 동물이 주어졌을 때 sparse data interpolation을 통해서 이 동물의 gait parameter를 찾는다. 


Reinforcement Learning with Sequences of Motion Primitives for Robust Manipulation, 2012

RL, Real-world


: 상당히 재밌는 논문이다. 강화 학습을 그 중에서도 Policy Improvement through Path Integrals를 이용해서 로봇의 manipulation task를 푼다. 구체적으로는 motion primitive와 여기서 사용되는 subgoal을 학습함으로써 pick and place 문제를 효과적으로 해결하였다. 

: 이번에 내가 ICRA쓴 human-robot cooperation 논문과도 상당히 비슷한 점이 많다.


Reinforcement Learning of Motor Skills in High Dimensions: A Path Integral Approach, 2010

RL, Stochastic-policyLocomotion


: This paper derived a slightly more general version of stochastic optimal control with path integrals.

: 여기서 PIPI가 처음 제안되는 것 같다. 위에 논문이랑 같이 언급하면 될 듯하다. 

: 중요한 contribution은 고차원 공간에서 정의되는 policy function을 고려하는 stochastic optimal control with path integral을 푸는 새로운 sample-based 방법을 제안한다. 


SIMBICON: Simple Biped Locomotion Control, 2007

Locomotion


: We develop a simple control strategy that can be used to generate a large variety of gaits and styles in real-time, including walking in all directions (forwards, backwards, sideways, turning), running, skipping, and hopping.

: 아래와 같이pose control graph라는 FSM을 이용해서 locomotion을 구현한 것이 이 논문의 주된 contribution이다. 이렇게 간단한데, 잘된다? 정도일듯하다. 

: We provide a simple framework for biped control. The starting point is the use of a simple finite state machine or pose control graph. Each state consists of a body pose representing target angles with respect to their parent links for all joints. All individual joints attempt to drive towards their target angles using proportionalderivative (PD) controllers. Transitions between states occur after fixed durations of time, or, for other states, after a new foot contact has been established.


Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates, 2016

 RLReal-world


: 레빈과 구글의 논문이다. 로봇들 잔뜩 가져다 놓고, 학습 시킨 바로 그 논문! 

: Asynchronous deep reinforcement learning을 구현하였다. 게다가 complex robotic manipulation skill을 from scratch로 학습을 하였다. 사용된 방법은 asynchronous version of the noramlized advantage functions (NAF) deep RL이다. 

: In this paper, we demonstrate that a recent deep reinforcement learning algorithm based on off-policy training of deep Q-functions can scale to complex 3D manipulation tasks and can learn deep neural network policies efficiently enough to train on real physical robots.


Learning Contact-Rich Manipulation Skills with Guided Policy Search, 2015

RLReal-world


: 오늘 날의 레빈을 있게 한, guided policy search를 이용한 학습 방법! 


















'Enginius > Robotics' 카테고리의 다른 글

로보틱스에서 하고 싶은 일들  (0) 2018.03.10
Planning and Decision-Making for Autonomous Vehicles  (0) 2018.03.05
Related work of LevOpt  (0) 2018.02.11
Robotics and AI infographics  (0) 2017.12.13
DMPL Reivews  (0) 2017.11.30