자, 이제 조건부 확률은 이렇게 쉽다는 점을 방금 한번 확인했습니다. 그러면 베이즈 정리에 대해서 한번 얘기해 볼까 합니다.
베이즈 정리는 방금 보았던 조건부 확률과 똑같은 것인데, 쬐끔 더 의미를 부여했다고 보면 됩니다. 베이즈 정리는 H와 D의 Notation으로 많이 표시하는데, H는 Hypothesis, 즉, 가정을 의미하고, D는 Data 즉 관측치를 의미합니다. 잠시만요, 베이즈 추론에 대해서 이미 "큰 수의 법칙에 대한 수긍과 베이지안풍의 접근"에서 잠시 한번 들여다본 적이 있습니다. 설마 겨드랑이에 땀이 배어 나오는 건 아니겠죠?
갱차나요. 어떻게 다 기억하고 삽니까? 다시 보믄 되죠.
조건부 확률을 표시하면,
$$ P(H|D) = \cfrac{P(D \cap H)}{P(D)} $$
이런데요, 눈 잘 뜨고 잘 보세요. $P(D|H) = \cfrac{P(D \cap H)}{P(H)} $잖아요? 이걸 이용해서 교집합을 다시 풀어쓰면,
$$ P(H|D) = \cfrac{P(H \cap D)}{P(D)} = \cfrac{P(D|H)P(H)}{P(D)} $$
입니다. 교집합을 한번 더 풀어 썼을 뿐인데, 이 정리에 의미를 부여하면 엄청난 정리가 되어 버립니다. 이게 무슨 의미냐면, 좌변과 우변을 잘 보세요~ P(H)가 P(H|D)로 변환된다는 점입니다. Term들 한 개 한 개의 의미를 되짚어 보면,
$P(H|D) = \cfrac{P(D|H)P(H)}{P(D)} $
⓵ $P(H)$ : 우리가 이미 알고 있는 어떤 조건이 있습니다. 또는 그렇지 않나? 의 믿음 정도도 괜찮습니다.
⓶ $ P(D|H)\cdot P(H) $ 그런 믿음 또는 조건하에 데이터가 발생할 확률P(D|H)을 측정해서 ⓵ P(H)에 곱합니다.
⓷ $ \cfrac{P(D|H)\cdot P(H)}{P(D)}$ 그것을 데이터가 나올 확률로 나눠서 크기를 조정합니다. 이걸 Normalize라고 부르기도 합니다.
⓸ $\cfrac{P(D|H) \cdot P(H)}{P(D)} = P(H|D)$ 그러면 데이터를 관측(목격)했을 때 우리가 원래 알던 확률이 어떻게 바뀌는지(update) 알 수 있게 됩니다. 음?
결국 $P(H) → P(H|D)$ 라는 의미는 원래 확률이 무언가를 관측으로써 - P(H)가 D를 관측했을 때 -어떻게 변하는가? 하는 이야기니까, 어쨌든 어떤 데이터를 관측했을 때, 갱신되는 확률을 구할 수 있다. 가 베이즈 정리의 진짜 의미라고 생각하면 틀림없습니다. - 이렇게까지 대단한 건가 싶긴 한데요. -
그래서 결국 $ P(H|D) \leftarrow \cfrac{P(D|H) \cdot P(H)}{P(D)} $ 으로 표기하는 것이 베이즈룰을 더 잘 기억할 수 있는 방법이라고 생각합니다.만. P(H)가 P(H|D)로 변환되니까요.
느낌적으로는 이런 느낌입니다.
그런 의미로 원래 확률 P(H)를 Prior(사전확률), P(H|D)를 Posterior(사후확률)이라고 하고요, P(D)는 Evidence(증거), P(D|H)를 Likelihood우도라고 부릅니다.
Prior나 Posterior, Evidence는 매우 이해하기 쉽잖아요? 그런데 Likelihood 즉, P(D|H)는 뭐냐하면, Prior가 사실이라고 가정했을 때, Evidence를 목격(관측)할 확률을 의미합니다. 혹시 최대우도법 할 때 Likelihood 정의했던 거 기억하나요? 2차 겨땀나죠. 베이즈정리를 만나자마자 이걸 Likelihood라고 하니까 아니 왜? 이거 뜬금없는데? 어?라고 탄식이 나오게 되는데, 이게 조금만 더 따라가 보면, P(H) Prior를 어떤 분포로 가정하고 Posterior 분포를 구하는 것도 하거든요? 그런 경우라면 이전에 보았던 Likelihood 정의와 완전 꼭 맞아떨어집니다.
자, 보세요. "최대 우도 추정법 (MLE)을 산수를 곁들여 즐기는 향유" 편을 기억 저 편에서 꺼내와서 복습하자면, P(data|Θ) 이거가 Likelihood였었잖아요? 모분포와 그에 대한 모수 Θ를 가정한 후 Data가 관측될 강도였잖아요? 베이지안에서 그 의미를 약간 확대해서 해석하면 Prior를 가정한 후에, Prior 조건하에 Data가 관측될 확률이니까 같은 맥락으로 비스읏~~ 하죠!
이걸 좀더 그냥 기억하기 쉽게 Interpretation 한다면
⓵ 어떤 확률이 있는데,
⓶ 이 확률이 참이라는 가정아래 어떤 데이터가 관측된(될) 확률을 곱하면
⓷ (그리고 그런 데이터가 관측될 확률로 나누어서 정규화를 하면)
⓸ 어떤 데이터를 관측했을 때 최초의 어떤 확률이 변화되는 것을 구할 수 있다.
입니다. 덜덜덜 - 보통 ⓷은 나누는 값이니까 논리와 계산의 복잡함을 피하기 위해 종종 설명에서 제외하곤 합니다.
확률을 이용해서 Classification을 하는 경우에 ML (Maximum Likelihood), MAP (Maximum A Posterior)의 관점으로 보는 방법이 있는데 금방 다시 한번 살펴볼 예정이니까, 기대가 되지 않더라도 기대해 주세요.
주사위를 던졌습니다.
3, 3, 3 - 엣? 3이 연속으로 세번이나 나왔다을 때 피셔를 위시한 frequentist들은 오늘은 운이 없는 날이군. 꽤나 작은 확률인데,라고 중얼거리는데 비하여 베이즈를 위시한 Bayesian들은 어? 이 주사위는 3일 확률이 엄청 큰 주사위군?이라고 생각합니다. 그렇다면 이거 주사위가 뭔가 Unfair 한데?라고 꽥 소리칩니다.라는 식의 이야기로 빈도주의 VS 베이즈주의의 차이를 설명할 수 있겠습니다.
베이즈 이론은 귀납법의 일반화 과정과 비슷하다고 느껴질텐데, 많은 문헌에서 인간의 인지과정과 베이즈 이론이 비슷하다고 주장합니다. 그도 그럴 것이 데이터를 보면서 점점 더 정확하게 학습해 나가니까 그렇다고 합니다.
댓글