Latent Dirichlet Allocation (LDA) with Matlab Code
1. 세팅 1. 우리에게 여러 문서가 주어졌다. 2. 문서는 단어의 묶음이다. 3. 단어는 특정 단어의 집합(사전)에서 나왔다. 4. 문서는 특정 주제(토픽)을 가지고 있다. 5. 주제는 문서들 마다 공유된다. 예를 들어서 생각해보면 우리에게 논문이 세 편 주어졌다고 하자. 조사는 모두 없다고 가정하겠다. 물론 한 논문에 단어는 중복되게 나올 수 있다. 논문 1양자 역학, 상대성 이론, 힉스 입자, 강아지, 고양이, 치킨, 상대성 이론, 상대성 이론, 양자 역학 논문 2치킨, 강아지, 고양이, 비둘기, 비둘기, 강아지, 강아지, 고양이, 햄버거 논문 3치킨, 치킨, 치킨, 치킨, 치킨, 치킨, 햄버거, 피자, 치킨 사실 논문이라고 하기엔 문제가 좀 있긴 하지만 위의 논문들을 보고 우리는 논문1은 물리학에..
더보기