RL for real robots
한번 related work 정리를 해보자. 논문은 편의상 제목만 적는 걸로 하자. 몇 개의 키워드를 놓자. Imitation-Learning, RL, Stochastic-policy, Real-world, Locomotion, Safe-constraint, Curriculum, D, E The Predictron: End-To-End Learning and Planning, 2017: Imitation-Learning : 딥마인드의 '그' David Silver가 1저자로 쓴 논문이다. The predictron은 a Markov reward process를 이용해서, 미래에 얻을 수 있는 reward의 합을 예측한다. 제안한 방법론은 learning과 planning을 하나의 end-to-end 학습..