본문 바로가기
베이지안 통계의 시작 : 모수분포 추론 - 무정보분포 Uniform로부터 - MAP 맛보기

이제까지는 확률을 가지고 따져보았으니 이번에는 모수의 확률분포를 가지고 모수를 추정하면 어떨까 합니다. 이게 베이지안 통계의 시작점입니다. 

무정보 분포로부터 데이터를 관측할 때 마다 모수에 대한 확률분포가 어떤 식으로 변해가는지를 볼 것인데요, "최대우도추정법(MLE)을 산수를 곁들여 즐기는 향유" 편에서 본 것처럼 약간의 산수를 해 볼까 하고요, 이번에는 제일 많이 이용되는 예를 들면 이해하기 좋으니까, 앞면이 나올 확률이 θ인 동전을 가지고 분포를 추론해 보도록 하겠습니다. 

동전 던지기가 나오면 Binomial이니 뭐니 파블로프의 개처럼 혓바닥을 통해서 나오게 되는데, 이번에는 그런 건 잠시 접어두는 것으로 해도 되겠습니다. 

동전 던지기에서 앞면이 나올 확률인 p는 모수로써, 이 p를 θ라고 설정하고 - p(확률)의 p(확률)를 따져볼 거라서요 헷갈림 방지 - 확률변수로 만들어 이야기를 이어가 볼까 합니다. 

문제를 설정해 보자면, 앞면이 나올 확률이 θ인 동전을 던져서 관찰을 했는데, 앞면, 앞면, 뒷면이 나왔습니다. 이때 앞면이 나올 확률 θ가 어떤 식으로 변화하는지 보려고 합니다. 

이 동전의 앞면이 나올 확률 θ에 대한 정보가 아무것도 없잖아요? 그러니까, 걍 θ는 0~1의 Uniform 분포를 갖는다고 가정하고 변화를 유도해 보도록 하겠습니다. - 물론 θ는 확률이니까 0~1 사이의 값을 갖겠습니다. - 

 

이때에는 Prior가 Uniform이니까 늘 θ=1 이 되겠군요. 자, 그러면 처음에는 앞면을 봤다고 했죠?. 그러니까 P(H|θ)는 앞면이 나올 확률이 θ일때 앞면이 나올 확률이니까 θ입니다. 자, 이제 베이즈 정리를 이용해 보시죠. H가 앞면(Head)이고, T가 뒷면(Tail)입니다.

$$P(\theta | H) = \cfrac{P(H | \theta) P(\theta)}{P(H)}$$ 잖아요? 그러니까, 

$$P(\theta | H) = \cfrac{\theta \cdot 1}{P(H)} = \cfrac{\theta}{P(H)} = C \theta$$ 이 됩니다. 

여기에서 1/P(H)는 어떻게 구해야 하나 싶은데, 걍 어떤 상수인데, 이거는 확률의 면적은 1 이다를 이용해서 구하면 쉽게 구할 수가 있겠습니다.  밑변은 0~1 (θ범위), 기울기는 1/P(H)인 직선이 만드는 삼각형의 넓이니까 이걸 C로 표현하면 밑변 1 높이 C 삼각형의 넓이와 같습니다.  결국, $\cfrac{1 \times C}{2} = 1$로 구하면 C=2가 됩니다. 후후.

 

오, θ를 모르는데, 앞면을 관측했더니 θ의 확률이 1에서 최대입니다. 호~ 즉, 앞면이 나올 확률이 1에서 최대라는 뜻입니다. 

자, 그러면 두번째로 앞면을 또 봤습니다. 호. 이번에는 Prior가 2θ가 되고, P(H|θ) = θ입니다. 그렇다는 이야기는! θ가 가질 Posterior분포는

$$P(\theta | H) = \cfrac{\theta \cdot 2\theta}{P(H)} = \cfrac{2\theta^2}{P(H)} = C \theta^2$$ 가 됩니다. 

이때, 확률의 면적은 1을 이용한다는 같은 방식으로 C를 구해보면,
$$\int ^{1}_{0} C \theta^2 d\theta = C\cfrac{1}{3} = 1\, \therefore C=3$$

이렇게 되어, 결국 P(θ|H) = 3θ²가 됩니다.

 

오, 모양새가 다른 값에서의 확률밀도가 줄어들고 1에서 더 최대가 되는 모양새가 되는군요. 호. 앞면이 나올 확률이 1에서 최대가 되는군요.

그러면 이제 어? 뒷면을 보았습니다? 그럼 어떻게 변할까요? 이때 Prior는 3θ²가 되고, Likelihood는 (1-θ)입니다. 왜 Likelihood가 이렇게 되냐면 P(T|θ)를 말하는 건데, 앞면이 나올 확률이 θ인 경우에 뒷면이 나올 확률은 당연히 (1-θ)되겠죠. 오. 그렇다면 θ가 가질 Posterior 분포를 또 계산해 볼까요?

$$P(\theta | T) = \cfrac{(1-\theta) \cdot 3\theta^2}{P(T)} = C(1-\theta)\theta^2$$ 가 됩니다. 흐흐 간단하군요. 

같은 확률의 면적은 1이라는 원리로 
$$\int ^{1}_{0} C(1-\theta)\theta^2 = 1 \, \therefore C = 12 $$ 를 구할 수 있으므로 

결국, θ가 가질 Posterior 분포는 12(1-θ)θ²가 되겠습니다.

 

이걸 보면 θ가 2/3 지점에서 최대가 됩니다. 오, 이거 신기하군요. H, H, T를 관측한 시점에서 무정보로 시작한 이 동전의 앞면이 나올 확률이 2/3에서 최대가 된다고 하니 당연하기도 하면서도 신기하기도 한 뭐 그런 결론에 이릅니다. 

이 지점에서 Maximum A Posterior Posterior가 툭 튀어 나왔는데, 2/3 지점에서 Posterior Probability가 최대가 된다는 것이 바로 MAP입니다. 별거 아니죠? 이전에 MLE를 따졌었는데, MAP와 MLE를 비교하는 이야기를 곧 해볼 작정입니다. 

베이지안 통계를 더 파다보면, 베타분포를 만나게 되는데, 그전에 잠시 메모를 해 두자면, Uniform 분포는 베타분포의 특수한 경우 Beta(1,1)입니다. 베타분포는 확률의 확률을 표현할 때 좋다고 했잖아요? 지금의 경우처럼 θ가 확률이잖아요? 그런 θ의 분포를 설명하는 초기 분포로 Uniform을 썼는데, 이게 베타분포라는 점. 그냥저냥 넘어갔던 "베이지안에 사용하자 - β분포에 관하여" 편을 다시 읽어봐도 좋겠군요.

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -