2017, Multi-Modal Imitation Learning from Unstructured Demonstrations using Generative Adversarial Nets, NIPS
죠셉 교수님과 스테판 샬 교수님이 참여하신 UCS 논문
결국 하려고 하는 것은 모방학습인데 여러 다른 intention을 갖고 있는 시범들이 주어졌을 때 어떻게 이것들을 분리해서 각각 정책 함수를 학습시킬지를 다르고 있다.
위의 수식이 가장 중요한 부분인 것 같다. 결국 intention에 condition된 정책함수를 찾고자 하고, 실제 구현에 있어서는 InfoGAN과 같이 돌아갈 것 같다.
실험으로는 아래와 같은 실험을 한다.
결국 InfoGAN을 한다. 그러면 InfoGAIL과 모가 다르지? 같다..
*2017, InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations, NIPS
이 논문은 스탠포드의 Stefano Ermon이 마지막 저자로 참여한 2017 닙스 논문이다. 위의 논문과 완전 같은데, 서로 레퍼를 안한다.
여기서는 Interpretable이라는 언어를 가지고 설명을 한다. 주행 시뮬레이터에 적용을 해서 왼쪽으로 피할지, 오른쪽으로 피할지를 다른 latent code를 가지고 설명을 한다.
위의 그림은 passing 에 대한 궤적을 나타내는 것이다.
2018, Learning an Embedding Space for Transferable Robot Skills, ICLR
Universal Planning Networks
Zero-Shot Visual Imitation
Generalizing Skills with Semi-Supervised Reinforcement Learning
Modeling Latent Attention Within Neural Networks
cGANs with Projection Discriminator
위 논문들을 읽고 정리해보자.
'Enginius > Machine Learning' 카테고리의 다른 글
Curation of RL papers (0) | 2019.12.06 |
---|---|
VAE에 대한 잡설 (2) | 2018.08.03 |
Recent papers regarding robust learning with noisy labels (0) | 2018.03.26 |
Causalty란 무엇일까? (0) | 2017.12.30 |
Back-propagation (delta rule) (0) | 2017.12.24 |