본문 바로가기

Enginius/Machine Learning

Reinforcement Learning

 Reinforcement Learning은 일반적인 supervised learning과는 조금 다르다. 어떤 동작이 옳았는지 여부의 판단을 모든 동작이 다 끝난 뒤에 하게 된다. 이러한 RL의 가장 간단한 버젼으로는 Policy Iteration이 있다. 

 이 Policy Iteration은 특정 state에 대한 reward가 다른 state에 비해서 상당히 높을 경우에 사용된다. 예를 들면 grid world에서 한 점에서 다른 점으로 로봇을 이동시키는 policy를 찾을 때 사용될 수 있다. 


<관련 내용>


다음과 같은 문제가 주어졌을 때 이 문제를 Policy Iteration으로 풀 수 있다. 



각 Iteration이 돌면서 바뀌는 policy와 return은 다음과 같다. 


매트랩 소스 파일

HW2 Reinforcement Learning.zip



 

'Enginius > Machine Learning' 카테고리의 다른 글

Distributed Gaussian Process under Localization Uncertainties  (0) 2013.01.08
Deep Learning Rocks. still  (0) 2012.12.13
Reinforcement Learning  (10) 2012.12.04
Solving LMI using SeDuMi  (0) 2012.11.26
Gaussian Mixture Model (vs k-means)  (0) 2012.11.20
Laplace Approximation  (0) 2012.10.19
  • Ahn 2013.03.29 16:15

    안녕하세요~ 머신러닝 관련 학습을 하고 있는 학생입니다.
    죄송하지만 Reinforcement Learning 매트랩 소스파일 비밀번호좀 알려주실 수 있으신가요?? 압축을 풀으려 하니 암호가 걸려있어서요...adr0018@naver.com 으로 비번 보내주시면 정말 정말 감사하겠습니다.

  • 익명 2015.02.07 00:59

    비밀댓글입니다

  • Yeong 2015.02.07 01:38

    안녕하세요 Reinforcement Learning에 관심있는 대학생입니다.
    코드를 한번 보고싶어서.. 암호를 혹시 알수 있을까해서 글 남김니다.

    제가 제대로 이해하고 코드를 구현한건지 비교해보고 싶어서요..
    HW2 Reinforcement Learning.zip 소스파일 비밀번호를 알수 있을까요?

  • 해리s 2015.02.07 13:29 신고

    비밀번호는 'chltjdwns' 을 치시면 됩니다!

  • Yeong 2015.02.09 18:16

    코드 감사합니다.
    이런 범주에 있는 것들에 대해 공부해보고 싶습니다.
    1. Keyword랄까?
    2."이런걸 읽어 봤으면 한다."
    추천해주시면 감사합니다.
    혹시 어느 대학원에서 공부하시는지 여쭤봐도 될까요?

    • 해리s 2015.02.11 17:09 신고

      키워드라함은 Reinforcement Learning이죠 ㅎㅎ 아니면 Markov Decision Process (MDP) 로 검색하셔도 됩니다.
      전 서울대학교 대학원에 있습니다.

  • Yeong 2015.02.11 22:44

    포스팅하신거 열심히 보고 있습니다. 주제들이 재미있고 흥미있어서,
    어느랩에서 공부하면, 이런 것들에 대해 공부하는지 궁금해서 글 남겨봤습니다.

    아직 아는 것 없는 컴공과 학생이기도하고.
    어느것을 공부해야하고, 어떤 것이 도움이 되는지... 잘 모르겠습니다.
    advice 한마디 부탁드려도 될까요?

    • 해리s 2015.02.11 22:46 신고

      혹시 지금 대학원생이신가요? ㅎㅎ 전 오성회 교수님 연구실에 있습니다. 혹시 로보틱스에 관심있으신가요?

  • Yeong 2015.02.12 11:22

    그냥 대학생입니다. 웹 검색 중에 테트리스 Genetic Algorithm으로 최적화 하는 문서가 있어서 관심있게 보고 있었는데요. 다른 방법으로 최적화하는 법은 뭐가 있나 찾아보게되던중 강화학습을 찾게되었고, 이 블로그까지 오게되었습니다. 이런 것들을 보다보니 이론적 측면에 들어가있는 마르코프 프로세스 말고도 가우시안 프로세스, 아직 보지는 않았지만 디리클레 프로세스들이 있다는 것을 알게 되었습니다. 그런데 공부하면서 참 재미있더라고요. 마침 블로그 제목에 대학원생이라는게 보여서 막막한 차에 글을 남겨봤습니다

    • 해리s 2015.02.12 13:00 신고

      아 그렇군요. ㅎㅎ 대단하시네요. 저 학부 땐 놀기 바빴던 것 같은데요.. 공부는 하다보면 참 할게 많죠. ^^ 하다보면 분명 재밌는 것도 많구요. 특히 디리클레 프로세스를 위시한 nonparametric Bayesian은 앞으로 전망이 좋다고 봅니다. 혹시나 나중에 물어볼 것 있으시면 sungjoon.choi@cpslab.snu.ac.kr로 연락주세요 //