RL for real robots 한번 related work 정리를 해보자. 논문은 편의상 제목만 적는 걸로 하자. 몇 개의 키워드를 놓자. Imitation-Learning, RL, Stochastic-policy, Real-world, Locomotion, Safe-constraint, Curriculum, D, E The Predictron: End-To-End Learning and Planning, 2017: Imitation-Learning : 딥마인드의 '그' David Silver가 1저자로 쓴 논문이다. The predictron은 a Markov reward process를 이용해서, 미래에 얻을 수 있는 reward의 합을 예측한다. 제안한 방법론은 learning과 planning을 하나의 end-to-end 학습.. 더보기
Related work of LevOpt Babes, Monica, Marivate, Vukosi N., Subramanian, Kaushik, and Littman, Michael L. Apprenticeship learning about multiple intentions. In Proceedings of the 28th International Conference on Machine Learning, ICML 2011 By clustering the observed trajectories of demonstrators using existing inverse reinforcement learning algorithms. The intention of each demonstrator is inferred by using the cluster.. 더보기
Research ideas (2018) 이제 다시 연구를 시작해 보자. 1. Inverse reinforcement learning with leverage optimization (경재) - that can incorporate nonstationary reward: - or with leverage optimization: 이건 leverage optimization의 기본적인 ill-posedness를 더 힘들게 만든다. 2. imitation learning with uncertainty-aware learned model dynamics (경재, 재구, 윤호)- Model identification with predictive uncertainty: 눈길에서 dynamics를 고려하는 제어 - 즉 내가 지금 상황에서 학습된 dynam.. 더보기
단상 부러운 것도 너무 많고, 비교되는 것도 너무 많다. 이런게 그냥 인생이 아닐까 싶으면서도 사실 모 어쩌겠나, 내가 선택한걸 더보기