4. 라플라스 근사
posterior가 더 이상 가우시안 분포가 아닌 경우, 매개변수 벡터 $w$에 대한 정확한 적분이 불가능하다.
따라서 특정 형태의 근사 법을 사용하는 것이 필요하다.
이번 장에서는, 라플라스 근사 법을 살펴보도록 하자.
0. 라플라스 근사
1. 우선, 단일 연속 변수 z의 경우를 살펴보자. 이때 다음과 같이 정의되는 분포 $p(z)$를 가정해 보자.
$$p(z) = \frac{1}{Z} f(z) (식 4.125)$$
- 여기서 $Z = \int f(z) dz$는 정규화 계수이다.
- $Z$의 값이 알려지지 않았다고 가정할 대, 라플라스 근사 법의 목표는 분포 $p(z)$의 최빈값을 중심으로 한 가우시안 근사 $q(z)$를 찾는 것이다.
- $p(z)$의 최빈값을 구한다.
- 최빈값을 구하기 위해서는 $p'(z_0) = 0$가 되는 $z_0$를 찾는다. (식 4.126) $$\frac{df(z)}{dz} \mid_{z={z_0}} = 0$$
- 가우시안 분포는 로그를 취한 결과가 변수들의 이차함수가 된다는 성질을 가지고 있다. 이때 최빈값 $z_0$를 중심으로 한 $lnf(z)$의 테일러 전개를 고려해 보자. $$lnf(z) \simeq lnf(z_0) - \frac{1}{2} A(z-z_0)^2 (식 4.127)$$
$$A = \frac{d^2}{dz^2} ln f(z) \mid_{z=z_0} (식 4.128)$$
- $z_0$가 분포의 local maximum이기 때문에 테일러 전개의 일차항은 나타나지 않는다. 여기에 지수를 취하면, $$f(z) \simeq f(z_0) exp \{ - \frac{A}{2} (z - z_0)^2\} (식 4.129)$$
- 그리고 정규화된 가우시안 분포에 대한 표준 방법을 사용하면 정규화된 분포 $q(z)$를 구할 수 있다. $$q(z) = (\frac{A}{2\pi})^{\frac{1}{2}} exp \{ - \frac{A}{2} (z - z_0)^2\} (식 4.129)$$
- 가우시안 분포의 precision A가 0보다 큰 경우에만 잘 정의된다. 즉, $z_0$가 local maximum이어야만 하고, $f(z)$의 $z_0$에서 2차 미분 값이 음수여야 한다.
- 그림 4.14는 분포 $p(z) \propto exp(-z^2 / 2) \sigma (20z + 4)$에 라플라스 근사를 적용한 경우이다.
- $\sigma(z) = (1+e^{-z})^{-1}$로 정의되는 로지스틱 시그모이드 함수이다.
- 왼쪽 그림은 정규화된 분포 $p(z)$(노란색)를 보여주고, $p(z)$의 최빈값 $z_0$를 중심으로 한 라플라스 근사를 빨간색 선으로 보여주고 있다.
- 오른쪽 그림은 해당 곡선들의 음의 로그값이다.
2. M차원 공간 z에 대해 정의된 분포 $p(z) = f(z)/Z$에 대한 라플라스 근사법을 확장해 보자
- $z_0$에서 기울기 $\triangledown f(z)$는 0이므로, 라플라스 전계를 시행하면, (식 4.131)
$$lnf(z) \simeq lnf(z_0) - \frac{1}{2} (z - z_0)^T A(z-z_0)$$
- 이때, M x M Hessian 행렬 A는, (식 4.132) $$A = -\triangledown \triangledown ln f(z) \mid_{z=z_0}$$
- 그리고, 양쪽 변에 지수 함수를 취하면, (tlr 4.133) $$ f(z) \simeq f(z_0) exp \{-\frac{1}{2} (z - z_0)^T A (z-z_0) \}$$
- 분포 $q(z)$는 $f(z)$에 비례하며, 적절한 정규화 계수는 식 2.43의 다변량 가우시안에 대한 표준 결과를 이용하여 구할 수 있다. (식 4.134)
$$q(z) = \frac{|A|^{1/2}}{(2\pi)^{M/2}} exp \{-\frac{1}{2} (z - z_0)^T A (z-z_0) \} = \mathcal{N}(z|z_0, A^{-1})$$
- $|A|$는 A의 행렬식이며, 가우시안 분포는 preicision matrix A가 주어졌을 때만 정의 가능하다.
- A는 양의 정부호 행렬이어야만 하고, 이는 $z_0$가 local maximum이라는 것을 의미한다.
3. 라플라스 근사 정리 및 한계점
1. 라플라스 근사의 특징
- 라플라스 근사를 얻기 위해서는 우선 최빈값(mode) $z_0$를 찾아야 한다.
- 이때, 최적화 알고리즘을 사용하며, 다봉일 경우, 어떤 봉우리를 선택하느냐에 따라 결과는 달라진다.
- 이후, Hessian 행렬을 구한다.
- 정규화 상수 Z는 반드시 구할 필요는 없으며(근사 식이 결정되면 원래 분포와 상관 없이 적당한 정규화 계수가 구해진다), 데이터 샘플이 많을 수록 근사 값은 정확해진다(중심극한정리에 의해)
2. 라플라스 근사의 한계점
- 가우시안 분포에 기반하고 있기 때문에 입력 범위가 반드시 실수형 변수여야 한다.
- 만약 다른 경우, 변수 범위 변환을 해 주어야 한다. $$ 0 \leq \tau < \inf \rightarrow ln\tau$$
- 특히 근사식이 특정 값들에 의해서만 결정되므로, 이 값 외의 다른 의미 있는 전역 특성이 존재하는 경우 이를 알아내기 어렵다.
4.1. 모델 비교와 베이지안 정보 기준
'딥러닝 > PRML (bishop)' 카테고리의 다른 글
4장. 선형 분류 모델 (3) (0) | 2022.07.04 |
---|