본문 바로가기

Enginius/Machine Learning

최근에 읽은 논문들, 대부분이 GP와 연관이 있네.

1. Manifold Gaussian Processes for Regression, archive 2014


GP의 covariance function은 smoothness를 나타낸다. 

복잡한 함수를 나타내기엔 좋지 않다. 

feature space를 사용하면 이를 해결할 수 있다. 

이는 unsupervised learning으로 구해지곤 한다. 

이 논문에서 제안한느 것은 데이터를 feature space로 보내는 방법과, 이 공간에서 GPR을 하는 것이다. 

전제 GPR을 F라 하면 F(x) = G(M(x)) 와 같이 표현한다. M은 feature로 보내고, G는 output으로 보낸다. 

F = G ⊙M 이다. 

M으로 뉴럴넷을 썼다?!?!?!? 

뉴럴넷으로 feature를 만들고, 여기서 GP를 했다... 헐 



2. Probabilistic Backpropagation for Scalable Learning of Bayesian Neural Networks, archive 2015


Bayesian neural network를 제안한다. 

Probabilistic backpropagation (PBP)를 제안한다. 

빠르다는 장점이 있다. 

그냥 뉴럴넷에 variance를 섞었다. Stochastic policy 만들 때 하는 것과 똑같다. 

예측은 다음과 같이 한다. 근데 계산이 안된다. 

Assumed density filtering (moment matching)으로 PBP를 구현한듯. 

The gold standard method for Bayesian learning in neural networks is Hamilton Monte Carlo (HMC) 이라고 한다. 



3. Approximate Inference for Robust Gaussian Process Regression, tech 2005


GP는 많은 곳에 사용되었다. 

최근에 expectation propagation (EP)가 많이 사용되었다. 

이 논문에선 EP의 사용과 robust GPR을 제안한다. 

To solve a real-world regression problem the analyst should carefully screen the data and use all prior information at hand in order to choose an appropriate regression model 라고 한다. 

Robust regression is often associated with the notion of outliers, which refers to observations that are in some sense structurally conspicuous 라고 한다. 

Often the presence of such outliers is attributed to observational errors, e.g. data processing errors or failures of measuring instruments 라고도 한다. 

Commonly a statistical model is called robust if it leads to conclusions which are insensitive to the occurrence of such outlier observations 라고도 한다. (무엇이 강인한가!)

이것이 의미하는 것은 outlier라는 것은 특정 모델에 한에서만 정의될 수 있는 것이다. 

다음 글귀는 유명한 글인가 보다. 

"One seeks data analysis methods that are robust, which means insensitive to the exact sampling distribution of errors, as it is often stated, insensitive to the model, or are, resistant, meaning that large errors in small proportion of the data do not greatly affect the conclusions"

베이지언들의 해답은 자연스러운데 이는 모델이 analyst의 belief와 uncertainty를 바로 고려할 수 있기 때문이다. 

이를 쉽게 고려할 수 있는 것은 two-model model이다. - 두 개의 모델을 사용하는데 하나의 모델은 regular observation을 위해서 만들고, 다른 하나는 outlier를 설명하기 위해서 사용된다. 

The “two-model model” will be the line of thought in the remainder of this paper. 라고 한다. 왠지 이러한 모델은 나도 사용할 수 있을 것 같다. 

The non-parametric approach is to put a prior p0(f|1) directly on the space of functions and to do inference on f. The simplest and most common prior over functions is a Gaussian process. 무엇이 nonparametric인가! 

이 논문에서 중요하게 생각하는 two model model은 다음과 같이 만든다. 

위에서 p_r은 regular, p_o는 outlier를 나타낸다. 그리고 이는 아래와 같이 나타낸다. 

Generally, if we knew the outlier generating process, the notion of robustness would vanish. 즉 아웃라이어가 어떻게 만들어지는지 안다면 robustness의 개념은 없어질 것이다. 모르니까 robust다

아래 그림을 robust GP의 예이다. 


이 논문에서는 에러가 두 개의 Gaussian distribution으로 모델링이 된다. 

아래 그림이 이 논문이 제안하는 것을 잘 설명해주는 그림이다. 

파란 원이 데이터인데, 어떤 데이터를 에러로 보느냐에 따라 다른 GPR이 되는 것을 알 수 있다.



4. Sparse Spectrum Gaussian Process Regression, IJML 2010


먼저 stationary GP의 covariance function을 보고, power spectral density를 sparsify 해서 sparse GP를 구해보자. 

Stationary GP의 경우 power는 k(x, x) = k(0)에 해당한다. 

GP의 auto-correlation function은 stationary covariance function과 같다. 그리고 다음의 관계를 얻을 수 있다. 

이는 Bochner theorem과도 몬가 이어진다. 몬가.. 

다음 문단에 바로 나오네. 

Bochner theorem은 모든 stationary kernel function은 positive finite measure의 Fourier transform으로 표현될 수 있음을 말한다. 그리고 이는 위의 S(s)가 positive임을 나타낸다. 게다가 S(s)는 probability measure p_S(s)에 비례함을 의미한다. 

그리고, 다음의 관계를 얻을 수 있다. 

위 식에서 E_{ps}는 p_S(s)로 평균을 낸것이고, 이는 MC integral을 통해서 근사할 수 있다. SE 커널을 근사하면 아래와 같다. 

물론 이것이 가능한 것은 SE 커널이 쉽게 p_S(s)가 계산되기 때문이다. 다음과 같이.



5. Robust Gaussian Process Regression with a Student-t Likelihood, IJML 2011


이 논문에선 에러 모델은 student-t model을 사용해서 robust GP를 했다. 이게 설마 단가...? 

EP를 이용해서 MAP 문제를 풀었다. 


6. Scalable Nonparametric Bayesian Inference on Point Processes with Gaussian Processes, archive 2014


이 논문에선 Poisson point process에서 정의된 Gaussian process model에 대해서 다룬다. 

무슨 말인지 모르겠다. 공간을 grid로 나눌 필요가 없다고 한다. 

Point process는 우리가 다루는 문제가 "number and repartition of otherwise identical points on a domain"이라는데 역시나 아직도 모르겠다. 

Poisson point process는 데이터로부터 얻은 intensity function으로 fully characterize된다. 정의는 다음과 같다고 한다. 아직도 모르겠다. 

S라는 공간에 점이 뿌려져 있으면 \lambda가 그 밀도를 구해주나? 

아 모르겠다. 이 논문은 정말 모르겠다... 


7. Distributed Gaussian Processes, archive 2015


Gaussian process를 large scale dataset으로 확장하기 위해서 이 논문에선 robust Bayesian Committee Machine (rBCM)이란 것을 제안한다. 이 알고리즘은 product-of-experts model이다.