본문 바로가기
베이즈 추론의 기본원칙은 정보를 얻으면 확률이 갱신된다는 것이다

자, 이제 조건부 확률은 이렇게 쉽다는 점을 방금 한번 확인했습니다. 그러면 베이즈 정리에 대해서 한번 얘기해 볼까 합니다. 

베이즈 정리는 방금 보았던 조건부 확률과 똑같은 것인데, 쬐끔 더 의미를 부여했다고 보면 됩니다. 베이즈 정리는 H와 D의 Notation으로 많이 표시하는데, H는 Hypothesis, 즉, 가정을 의미하고, D는 Data 즉 관측치를 의미합니다. 잠시만요, 베이즈 추론에 대해서 이미 "큰 수의 법칙에 대한 수긍과 베이지안풍의 접근"에서 잠시 한번 들여다본 적이 있습니다. 설마 겨드랑이에 땀이 배어 나오는 건 아니겠죠?

갱차나요. 어떻게 다 기억하고 삽니까? 다시 보믄 되죠. 

조건부 확률을 표시하면, 
$$ P(H|D) = \cfrac{P(D \cap H)}{P(D)} $$

이런데요, 눈 잘 뜨고 잘 보세요. $P(D|H) = \cfrac{P(D \cap H)}{P(H)} $잖아요? 이걸 이용해서 교집합을 다시 풀어쓰면,

$$ P(H|D) = \cfrac{P(H \cap D)}{P(D)} = \cfrac{P(D|H)P(H)}{P(D)} $$

입니다. 교집합을 한번 더 풀어 썼을 뿐인데, 이 정리에 의미를 부여하면 엄청난 정리가 되어 버립니다. 이게 무슨 의미냐면, 좌변과 우변을 잘 보세요~ P(H)가 P(H|D)로 변환된다는 점입니다. Term들 한 개 한 개의 의미를 되짚어 보면,

$P(H|D) = \cfrac{P(D|H)P(H)}{P(D)} $

⓵ $P(H)$ : 우리가 이미 알고 있는 어떤 조건이 있습니다. 또는 그렇지 않나? 의 믿음 정도도 괜찮습니다. 
⓶ $ P(D|H)\cdot P(H) $ 그런 믿음 또는 조건하에 데이터가 발생할 확률P(D|H)을 측정해서 ⓵ P(H)에 곱합니다. 
⓷ $ \cfrac{P(D|H)\cdot P(H)}{P(D)}$ 그것을 데이터가 나올 확률로 나눠서 크기를 조정합니다. 이걸 Normalize라고 부르기도 합니다. 
⓸ $\cfrac{P(D|H) \cdot P(H)}{P(D)} = P(H|D)$ 그러면 데이터를 관측(목격)했을 때 우리가 원래 알던 확률이 어떻게 바뀌는지(update) 알 수 있게 됩니다. 음?

결국 $P(H) → P(H|D)$ 라는 의미는 원래 확률이 무언가를 관측으로써 - P(H)가 D를 관측했을 때 -어떻게 변하는가? 하는 이야기니까, 어쨌든 어떤 데이터를 관측했을 때, 갱신되는 확률을 구할 수 있다. 가 베이즈 정리의 진짜 의미라고 생각하면 틀림없습니다. - 이렇게까지 대단한 건가 싶긴 한데요. -

그래서 결국 $ P(H|D) \leftarrow \cfrac{P(D|H) \cdot P(H)}{P(D)} $ 으로 표기하는 것이 베이즈룰을 더 잘 기억할 수 있는 방법이라고 생각합니다.만. P(H)가 P(H|D)로 변환되니까요.

느낌적으로는 이런 느낌입니다.

그런 의미로 원래 확률 P(H)를 Prior(사전확률), P(H|D)를 Posterior(사후확률)이라고 하고요, P(D)는 Evidence(증거), P(D|H)를 Likelihood우도라고 부릅니다. 

Prior나 Posterior, Evidence는 매우 이해하기 쉽잖아요? 그런데 Likelihood 즉, P(D|H)는 뭐냐하면, Prior가 사실이라고 가정했을 때, Evidence를 목격(관측)할 확률을 의미합니다. 혹시 최대우도법 할 때 Likelihood 정의했던 거 기억하나요? 2차 겨땀나죠. 베이즈정리를 만나자마자 이걸 Likelihood라고 하니까 아니 왜? 이거 뜬금없는데? 어?라고 탄식이 나오게 되는데, 이게 조금만 더 따라가 보면, P(H) Prior를 어떤 분포로 가정하고 Posterior 분포를 구하는 것도 하거든요? 그런 경우라면 이전에 보았던 Likelihood 정의와 완전 꼭 맞아떨어집니다. 

자, 보세요. "최대 우도 추정법 (MLE)을 산수를 곁들여 즐기는 향유" 편을 기억 저 편에서 꺼내와서 복습하자면, P(data|Θ) 이거가 Likelihood였었잖아요? 모분포와 그에 대한 모수 Θ를 가정한 후 Data가 관측될 강도였잖아요? 베이지안에서 그 의미를 약간 확대해서 해석하면 Prior를 가정한 후에, Prior 조건하에 Data가 관측될 확률이니까 같은 맥락으로 비스읏~~ 하죠! 

이걸 좀더 그냥 기억하기 쉽게 Interpretation 한다면 
⓵ 어떤 확률이 있는데,
⓶ 이 확률이 참이라는 가정아래 어떤 데이터가 관측된(될) 확률을 곱하면 
⓷ (그리고 그런 데이터가 관측될 확률로 나누어서 정규화를 하면)
⓸ 어떤 데이터를 관측했을 때 최초의 어떤 확률이 변화되는 것을 구할 수 있다. 

입니다. 덜덜덜 - 보통 ⓷은 나누는 값이니까 논리와 계산의 복잡함을 피하기 위해 종종 설명에서 제외하곤 합니다. 

확률을 이용해서 Classification을 하는 경우에 ML (Maximum Likelihood), MAP (Maximum A Posterior)의 관점으로 보는 방법이 있는데 금방 다시 한번 살펴볼 예정이니까, 기대가 되지 않더라도 기대해 주세요.

주사위를 던졌습니다. 
3, 3, 3 - 엣? 3이 연속으로 세번이나 나왔다을 때 피셔를 위시한 frequentist들은 오늘은 운이 없는 날이군. 꽤나 작은 확률인데,라고 중얼거리는데 비하여 베이즈를 위시한 Bayesian들은 어? 이 주사위는 3일 확률이 엄청 큰 주사위군?이라고 생각합니다. 그렇다면 이거 주사위가 뭔가 Unfair 한데?라고 꽥 소리칩니다.라는 식의 이야기로 빈도주의 VS 베이즈주의의 차이를 설명할 수 있겠습니다. 

베이즈 이론은 귀납법의 일반화 과정과 비슷하다고 느껴질텐데, 많은 문헌에서 인간의 인지과정과 베이즈 이론이 비슷하다고 주장합니다. 그도 그럴 것이 데이터를 보면서 점점 더 정확하게 학습해 나가니까 그렇다고 합니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -