본문 바로가기
베이즈 정리를 이용할 때 문제를 쉽게 푸는 비밀 공식

베이즈 정리를 알아 봤으니까, 베이즈를 다룰 때 빠지지 않는 암 진단 오진율과 조건부확률에 관한 문제를 다뤄보려고 합니다. 이거 굉장히 쉽게 푸는 방법이 있거든요. 쉽게 풀리긴 해도 어떻게 하는지 집중해야 합니다. 

자, 그럼 본격 예시를 들여다보시죠. 암 진단 키트가 있는데요, 성인 중 0.1%가 암에 걸려있다고 합니다. 이때 검사는 95%를 발견하고, 오발견은 10%라고 합니다. 이때 어떤 사람의 검사 결과가 암이라고 했을 때, 실제로 암에 걸렸을 확률은? 

이라는 아주 유명하고, 자주 인용되는 예제를 풀어보겠습니다. 

일단은 정확한 계산전에 Rough 하게 들여다보자면, 주어진 정보는 양성을 관측했고요 (Data), Prior가 성인중 0.1% 확률이라는 점이고, 이 Prior가 참이라는 가정아래 양성을 볼 확률 95%가 Likelihood라는 것입니다. 

 

암을 H, 양성을 +로 표기하면, Tree 형태로 문제를 풀 수 있습니다. Tree의 시작은 관측사건을 두고, 그다음에는 Prior와 Prior의 여집합등으로 Tree를 만듭니다. Tree의 마지막에는 Prior에 따른 관측사건에 대한 확률을 늘어놓습니다. 이것이 Likelihood입니다. 이 그럼을 그대로 완성해서 그려보면, 왼쪽으로부터 보면 양성을 봤고요, Prior와 Prior 여집합을 구분합니다. 즉, 암, 그리고 암의 여집합으로 Tree가 나뉘고, 그 다음에는 각 Prior(암/암 여집합)에 대하여 관측할 수 있는 사건들의 양성과 음성의 확률을 늘어놓습니다. 이 부분은 맨 위의 값이 암일 때 양성 일 Likelihood가 됩니다. 

그리고는, 나머지 필요한 정보들을 채워보는 겁니다. 

이런 식으로 나머지 정보들을 채워 넣을 수 있겠죠. 뭐 그렇다고는 하지만, 막상 이것을 계산하기 위해서 필요한 정보가 모두 필요한 건 아니고, 

요렇게만 필요합니다. 왜냐하면 우리는 양성에 관련된 것만 따질거라서요. 

그러면 결국 양성을 +, 암을 H로 표기하고 화살표 방향만 신경써서 계산해 보면,

$P(H|+) = \cfrac{P(+|H)P((H)}{P(+)} = \cfrac{0.001\times 0.95}{0.001\times 0.95 + 0.999 \times 0.1} = 0.94\% $가 됩니다. 

0.1%에서 0.94%로 양성 Prior가 커졌습니다. 어, 쉽잖아?

그러면 조금 특이한 경우를 한번 볼까요?

 

자, 어떤 봉지안에 A항아리와 B항아리가 들어 있고, A항아리와 B항아리가 선택되는 비율은 7:3입니다. A항아리에는 흰 공이 2개, 검은 공이 8개 있고요, B항아리에는 흰 공이 9개 검은 공이 6개 있습니다. 

이럴 때, 공을 하나 꺼내봤더니 흰공이 나왔습니다. 자, 그러면 어떤 항아리에서 흰 공이 나왔을 확률이 더 클까요? 오, 흥?

자, 조금 정리해 봅시다. 흰공을 봤어요! 그러면 흰 공은 Data가 될 거고요, 그때 항아리 A에서 나올 확률과 그때 항아리 B에서 나올 확률을 각각 구해서 비율을 구해서 Prior로 생각하면 되겠죠! 

그러면, 참지 말고 Tree를 그려봅시다!

흰 공을 봤고요, 결국에는 항아리 A일 확률이 Prior, 항아일 A일 때 흰 공을 본 것이 Likelihood가 되겠습니다. 후후. 

그러면 일단 Tree에 각각의 확률을 채워넣어보겠습니다.

간단하쥬?  흰 공을 W, 검은 공을 B라고 간략하게 표현하고요, 흰 공을 봤을 때 A, 흰 공을 봤을 때 B는

$$ P(A|W) = \cfrac{P(W|A)P(A)}{P(W)} \\
P(B|W) = \cfrac{P(W|B)P(B)}{P(W)}$$

각각 이런 식으로 표현할 수 있겠습니다. 그러면 

$$ \cfrac{P(A|W)}{P(B|W)} $$ 
를 구하면 어떤 확률이 더 큰지 알겠군요!

그것은 

$$ \cfrac{P(W|A)P(A)}{P(W|B)P(B)} $$

가 될 테니까요! 흰 공일 때만 따지면 됩니다.

계산해 보면요, 이때 분자는 A에 흰 공인 경우만 따지고,  분모는 B에 흰공인 경우만 따지면 됩니다. 

$$ \cfrac{\cfrac{7}{10}\cdot\cfrac{2}{10}}{\cfrac{3}{10}\cdot\cfrac{9}{15}} = 0.77$$

오! 그렇다면 B에서 나왔을 확률이 A에서 나왔을 확률보다 크다는 말이니깐요! B에서 흰 공이 나왔을 확률이 더 크군요! 오호호. 여기에서 A와 B의 비율을 구한 이유는 분모가 공통으로 없어지니까 P(W)를 구하지 않고도 편리하게 크기를 비교할 수 있습니다. 이런 식의 계산을 자주 사용하니까 한번 해 봤습니다. 

자, 이제 무릎을 탁! 치고 이제 베이즈는 끝났다고 말하고 웃어주세요. 세상 간단하네요.

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -