본문 바로가기

Enginius/Machine Learning

Hierarchical Dirichlet Process 구현

이 프로젝트는 고급 베이지안 통계학 최종 프로젝트로 진행한 것입니다. Hierarchical Dirichlet Process (HDP)는 Topic modelling에 효과적으로 사용될 수 있으며 현재는 문서 데이터를 모델링하는데 사용하고 있습니다. 단어들로 이뤄진 문서들이 있을 때, 단어들의 분포를 의미하는 토픽을 찾고, 문서를 해당 토픽의 분포로 표현하는 것을 목표로 합니다. 


수행 화면

 위의 두 화면은 실시간으로 Log likelihood와 토픽의 수를 나타내는 K를 보여줍니다. 아래는 MCMC에 사용되는 파라미터를 설정할 수 있는 창입니다. 오른쪽 아래는 상태창으로 현재 불러온 데이터와 사용된 파라미터를 보여줍니다. 


결과 화면

 정해준 숫자 만큼 MCMC를 한 후에는 위의 화면과 같이 그래프로 결과를 보여줍니다. 그래프 그리는 것은 Gnuplot을 통해 하기 때문에 이 프로그램을 꼭 설치해야 합니다. 


실행 파일,  Gnuplot 설치 파일, 문서 파일


사용된 소스 코드


설명서