Research ideas (2018)

이제 다시 연구를 시작해 보자.

1. Inverse reinforcement learning with leverage optimization (경재)

- that can incorporate nonstationary reward:

- or with leverage optimization: 이건 leverage optimization의 기본적인 ill-posedness를 더 힘들게 만든다.

2. imitation learning with uncertainty-aware learned model dynamics (경재, 재구, 윤호)

- Model identification with predictive uncertainty: 눈길에서 dynamics를 고려하는 제어

- 즉 내가 지금 상황에서 학습된 dynamics가 불안정하고, 예측의 variance가 클 경우에 천천히 움직이는 제어를 하자?

3. Scalable leverage with Bayesian neural network (성빈, 경재)

- 마지막 레이어에 weight에 대해서 확률 분포를 준다. 이걸 이용해서 leverage optimization을 할 수 있지 않을까?

- 즉 앞단은 feature mapping으로 보고, 뒷단 행렬을 하나 학습하는데, 이 행렬에 대해서 correlation을 줄 수 있는 어떤 방법을 찾아서, 그 파라미터(=leverage)를 찾는 leverage optimization으로 문제를 바꾼다.

4. Upper-body motion trajectory에 대한 representation learning

- 이건 제일 하고 싶기는 한데, 어떻게 해야할지는 전혀 모르겠다.

- 사람과 로봇 사이의 interaction을 하는 경우 일종의 primitive를 찾는 것이 문제의 복잡도를 엄청 줄일 수 있다.

5. 혜민) Interaction-aware human-robot cooperation (pick-up)

- 언어와 영상을 동시에 주고, 이미지 공간 속에서 어디를 pick해야하는지 구한다.

- 얻어진 uncertainty map을 바탕으로 사람에게 되물어 본다.

6. 경재) Multi-modal sparse imitation learning with maximum causal sparse Tsalis entropy

- IRL을 푸는데 objective로 Tsalis entropy가 들어가고, constraint가 feature matching이 된다.

- Sparsemax policy를 MDN으로 근사한다.

7) Stochastic policy의 필요성: safety and robustness toward the stochastic world.

- 일종에 candidate을 줄 수 있는 느낌적인 느낌으로 볼 수 있다. 몬가 문제가 되었을 때 좋은 제안을 하는 MDN?

- 2nd best solution을 줄 수 있다는 그런 거?

8) Efficient training of MDN using exploration tricks

- MDN의 mean 자체에 대해서 variance를 키우는 regularization을 다룬다.

- '$ \sum_{j=1}^K w_j (\mu_j-\bar{\mu})^2 $' 아마도 이 텀을 키운다?

- 추가적으로 '$\{ w_j \}_{j=1}^K$'의 학습을 천천히 하는 것도 일종에 exploration 효과를 줄 수 있는 것 같다.

9) Predicting future occupancy information using an occupancy flow algorithm in adverse weather conditions

- Recurrent flow network를 좀 더 실용적으로 바꿔보는 연구?

일단 위에서 언급한 아이템 중에서는 3번이 제일 재밌어 보인다.

Leverage optimization이 잘 되도록 하는 것이 재밌는 문제니까? Implication은 가장 큰 논문이 아닐까 싶다.

papers in CDC (0)	2013.12.24
논문들 정리 (0)	2012.07.20

Mad for Simplicity