Reinforcement Learning은 일반적인 supervised learning과는 조금 다르다. 어떤 동작이 옳았는지 여부의 판단을 모든 동작이 다 끝난 뒤에 하게 된다. 이러한 RL의 가장 간단한 버젼으로는 Policy Iteration이 있다.
이 Policy Iteration은 특정 state에 대한 reward가 다른 state에 비해서 상당히 높을 경우에 사용된다. 예를 들면 grid world에서 한 점에서 다른 점으로 로봇을 이동시키는 policy를 찾을 때 사용될 수 있다.
<관련 내용>
다음과 같은 문제가 주어졌을 때 이 문제를 Policy Iteration으로 풀 수 있다.
각 Iteration이 돌면서 바뀌는 policy와 return은 다음과 같다.
매트랩 소스 파일
HW2 Reinforcement Learning.zip
'Enginius > Machine Learning' 카테고리의 다른 글
Distributed Gaussian Process under Localization Uncertainties (0) | 2013.01.08 |
---|---|
Deep Learning Rocks. still (0) | 2012.12.13 |
Solving LMI using SeDuMi (0) | 2012.11.26 |
Gaussian Mixture Model (vs k-means) (0) | 2012.11.20 |
Laplace Approximation (0) | 2012.10.19 |