본문 바로가기
알게되면 사랑스러운 조건부 확률

베이즈는 죽었다. 

1761년에 토머스 베이즈는 죽었고, 베이즈는 내가 매우 좋아하는 에든버러대학을 나왔다는 사실을 제외하고는 그닥 좋아하는 부분은 발견할 수 없었는데. 왜냐하면 머리가 좋은 천재는 후세의 학생들을 너무 골치 아프게 하는 것 아닌가? 하는 생각이 들었기 때문입니다. 뭐 사실 나 같은 범인으로서 반은 부럽다는 생각이 지배적이긴 하지만. 베이즈 때문에 내가 죽겠다.

사실 베이즈정리는 그냥 보면 뭐 이런 당연한 소리를 했나 싶도록 이게 뭐지 싶은데, 이번 기회에 확실하게 알아두면 이런식의 사고가 매우 유용하다는 것을 깨닫게 될 것입니다.라고 일단 무지성으로 세뇌합시다. 

처음에 베이즈룰을 맞닥트렸을 때 느낌은 이랬어요. A가 일어난 상황에서 B의 확률이라니. 그러면 A와 B가 동시에 일어난 사건인가...? 그러면

하는 의문이 뙇 있었습니다. 

하지만, 이걸 정확하게 해석하면, A가 일어난 상황에서 B의 확률이라는 것은 A가 일어난 상황에서의 일이니까, A가 일어난 상황으로 "한정"해서, 즉 A가 일어난 상황이 Sample Space(전체집합, 분모)으로 바뀌고, 이때 B가 일어난 상황이라고 해석이 바뀌어야 합니다. 결국 Conditional Probability는 Conditional부분이 전체집합으로 치환, 한정되는 확률이라고 보면 굉장히 쉬워집니다.

그러니까 이제부터 우리가 고려해야 하는 전체집합이 A로 바뀌는 경우로 한정한다고 표현하는 것이 편리할 것 같군요. 

즉,
$$ \cfrac{P(A \cap B)}{ P(A)} = P(B|A) $$
라는 의미입죠.


자, 아주 간단한 Conditional Probability의 예를 볼 테니 한번 암산해 보세요. 

어느 대학교의 경영학과는 정원이 100명입니다. 여기에는 남자가 50명이 있고, 이중에 A학점 남자가 20명, A학점 여자가 30명이 있다고 칩시다. 이때 임의로 뽑은 사람이 A학점일 때 이 사람이 남자일 확률은 얼마인가요? 

자, 얼마인가요? 

답은 생각하시듯이 

= (A 학점 남자)/(A학점 중에) $ = \frac{20}{50} = \frac{2}{5}$ 

오, 간단간단, 이거 되게 쉽죠. 원래 우리는 이런 식으로 생각하는데 별로 어려움이 없습니다. 전체집합이 100명이 아니라 A학점을 받은 학생으로 쉽게 바꿔서 생각할 수 있습니다. 그런데, 이걸 수식으로 표현하니까 엄청 어려운 것처럼 보이는 것이죠.  이 간단한 말을 겁나 복잡해 보이는 확률로 표현해서 다시 풀어볼까요?

똑같은 문제를, 조금더 있어 보이게. 

어느 대학교의 경영학과에는 남자가 50%로 있고, 남자 중에 A학점의 남자가 40%, 여자 중에 A학점의 여자가 60%가 있다고 칩시다. 이때 임의로 뽑은 사람이 A학점일 때 이 사람이 남자일 확률은 얼마인가요? 

수식으로 한번 표현해 볼까요. 

 

음. 뭔가 더 복잡해지고 어려워 졌습니다만, 어쨌든 결국엔 분모는 전체  A학점수를 구하는 거고, 분자는 그중 남자가  A학점인 경우를 구하는 것입니다. 

사실 이것을 확률로 쓰니까 굉장히 어려워 보이는데 다음과 같이 비율로 생각한다면, 더 쉽게 접근할 수 있습니다. 그냥 전체 집합을 100명이라고 생각하는 겁니다. 

헷 똑같네요. 결국에 N(전체)가 모두 약분되어서 없어지니까, 확률로 계산해도 그게 그거입니다. 이제 좀 사랑스러워졌나 모르겠네요. 확률로 따지기 어렵다면 이걸 확률이라고 생각 안 하고 비율이라고 생각하면 훨씬 더 쉽게 문제를 해결할 수 있습니다. 전체집합을 100으로 따지고 그것에 대한 비율로 따져도 같은 말이니까, 그렇게 따지는 편이 이해하기 훨씬 수월합니다. 이게 왜 그러냐면 확률은 왠지 결정되어 있지 않은 값의 느낌이고, 비율은 확정되어 있는 값의 느낌이니까요. 더 이상 머리를 헝클어 뜨리면서 긁을 필요가 없어질 거라 생각합니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -