본문 바로가기

Enginius/Machine Learning

Reinforcement Learning

 Reinforcement Learning은 일반적인 supervised learning과는 조금 다르다. 어떤 동작이 옳았는지 여부의 판단을 모든 동작이 다 끝난 뒤에 하게 된다. 이러한 RL의 가장 간단한 버젼으로는 Policy Iteration이 있다. 

 이 Policy Iteration은 특정 state에 대한 reward가 다른 state에 비해서 상당히 높을 경우에 사용된다. 예를 들면 grid world에서 한 점에서 다른 점으로 로봇을 이동시키는 policy를 찾을 때 사용될 수 있다. 


<관련 내용>


다음과 같은 문제가 주어졌을 때 이 문제를 Policy Iteration으로 풀 수 있다. 



각 Iteration이 돌면서 바뀌는 policy와 return은 다음과 같다. 


매트랩 소스 파일

HW2 Reinforcement Learning.zip



 

'Enginius > Machine Learning' 카테고리의 다른 글

Distributed Gaussian Process under Localization Uncertainties  (0) 2013.01.08
Deep Learning Rocks. still  (0) 2012.12.13
Solving LMI using SeDuMi  (0) 2012.11.26
Gaussian Mixture Model (vs k-means)  (0) 2012.11.20
Laplace Approximation  (0) 2012.10.19