논문/용어 & 개념

Auto-Encoding Variational Bayes

0.genius 2018. 9. 26. 19:32

학부생이 공부하는 Auto-Encoding Variational Bayes 논문용어


용어 정리


- VAE

Deep Learning을 생성모델에 적용한 것이다. 손글씨나 얼굴표정에 존재하는 잠재변수의 분포를 찾아내고, 데이터 셋에 존재하지 않는 자연적인 이미지 생성이 가능하다. Auto encoder가 중간층에 이미지의 추상표현을 획득한 것이라면, VAE는 중간층에 노이즈를 넣어 새로운 이미지를 생성하는 것.

X와 거의 똑같은 X를 만들 수 있도록 정규분포 모델을 구하고(학습단계), 새로운 Z를 입력으로 주면, 기존에 학습한 정규분포를 통해 가까운 이미지를 생성해낸다.

(VAE 정리 완전 잘된 출처 : https://www.slideshare.net/ssuser06e0c5/variational-autoencoder-76552518)


- Auto encoder

기본 구조는 다음과 같다. autoencoder에서 출력값은 입력값의 개수와 같다. hidden layer는 input layer의 특징을 잘 뽑아내어야 하므로 feature detection에도 사용이 된다. 



- Manifold hypothesis

고차원의 데이터를 차원을 축소하여 저차원의 데이터로 표현하는 다양체의 존재성에 대한 가설입니다.

다음과 같은 손글씨 데이터는 784차원의 고차원이지만, 다음과 같이 저차원 표현이 가능.



- Variational inference

VI는 복잡한 분포를 간단한 형태의 분포로 근사시켜 풀기 어려운 분포를 풀 수 있게끔 함.

P(Z|X)를 구하고 싶지만 이 확률이 posterior P(Z|X)이면 직접 구하기 힘들다. 

(용어 확인 :

1. 사전 확률 (prior probability) : A(원인)이 발생할 확률 P(A)와 같이 결과가 나타나기 전에 결정되어 있는 확률.

2. 우도(likelihood probability) : A(원인)이 발생하였다. 는 조건하에서 B(결과)가 발생할 확률 P(B|A)를 나타낸다.

3. 사후 확률(posterior probability) : B(결과)가 발생하였다는 조건하에서 A(원인)가 발생하였을 확률을 나타낸다.

출처 : http://dokim.tistory.com/entry/%EB%B2%A0%EC%9D%B4%EC%A6%88-%EC%A0%95%EB%A6%AC-Bayes-Theorem

)

따라서,

로 풀수 있다.

여기서, 우리는 KL-divergence를 이용해서 Q(Z|V)가 최대한 P(Z|X)에 가까워지는 Vi를 계산 할 수 있다.

(출처 : http://lifencomputing.blogspot.com/2017/06/variational-inference.html )


- KL-divergence

실제 데이터를 대표하는 모델과 우리가 만든 가상 모델과의 차이를 나타내는 식이다. "얼마나 다른지" 나타내기 위한 식.

P는 주로 참 분포(True distribution), 실제 관찰 데이터(Observations)를 나타내고 Q는 주로 가설, 모델을 나타낸다.

KL-divergence는 중요한 세가지 특성을 가진다.

1. 항상 0보다 크다. 

2. D(P||Q)와 D(Q||P)는 다른 값을 가진다. 비대칭적이다.

3. 두 확률 분포가 동일하면 DKL값은 0이 된다.

(출처 : https://brunch.co.kr/@chris-song/69)


- Maximum likelihood

Maximum likelihood estimate란 쉽게 말해서 사건 A{x1, x2, x3, ... ,xn}가 가장 높게 나타날 확률인 x를 구하는 것이다. (예시 : 동전을 1000번 던져서 앞이 400번 나올 가능성을 최대로 하는 p(앞이 나올 확률)는? , 키를 5번 측정했을 때 178,179,180,181,182cm이 나올 가능성이 최대가 되는 나의 키는 얼마일까?답 출처 : http://rpubs.com/Statdoc/204928  

likelihood란 가능도를 말하는데 사건이 가장 많이 발생활 확률과 같다. 만약 사건이 연속된 사건(셀수 없는 무한한 사건)중 일부일 경우, 가능도는 pdf(probability density function)로 측정한다. pdf란 사건이 연속이면 특정구간을 통해서 확률을 구하는 것과 같다. 예를 들어, 1부터 소숫점 포함 10까지의 숫자중에서 5가 나올 확률은 0이다. 이 경우를 대비하여 , 5부터 6의 구간, 즉 넓이를 통해 확률을 구하는 것이다.