Reinforcement Learning

Reinforcement Learning은 일반적인 supervised learning과는 조금 다르다. 어떤 동작이 옳았는지 여부의 판단을 모든 동작이 다 끝난 뒤에 하게 된다. 이러한 RL의 가장 간단한 버젼으로는 Policy Iteration이 있다.

이 Policy Iteration은 특정 state에 대한 reward가 다른 state에 비해서 상당히 높을 경우에 사용된다. 예를 들면 grid world에서 한 점에서 다른 점으로 로봇을 이동시키는 policy를 찾을 때 사용될 수 있다.

<관련 내용>

다음과 같은 문제가 주어졌을 때 이 문제를 Policy Iteration으로 풀 수 있다.

각 Iteration이 돌면서 바뀌는 policy와 return은 다음과 같다.

매트랩 소스 파일

Distributed Gaussian Process under Localization Uncertainties (0)	2013.01.08
Deep Learning Rocks. still (0)	2012.12.13
Solving LMI using SeDuMi (0)	2012.11.26
Gaussian Mixture Model (vs k-means) (0)	2012.11.20
Laplace Approximation (0)	2012.10.19

Mad for Simplicity