p value은 왜 극단치를 더할까; False Positive, False Negative에 관한 α이야기

지난 이야기에 이어서.

결국, p value은 쉽게 말해 관측한 값인 검정 통계량에 근거한 확률을 알아내고 이 값이 크면 귀무가설이 사실일 때 흔히 일어나는 일이니까, 귀무가설을 기각할 근거가 부족해 귀무가설을 채택하고, 거꾸로 p value가 아주 작다는 것은 귀무가설이 사실이라고 했을 때 그만큼 드문 일이라는 뜻으로, 단순한 우연으론 보기 어려우니까, 귀무가설을 받아들이기 어려워서 귀무가설을 기각한다는 의미입니다.

자, 그러면 이 말 그대로라면 관측한 값만 있으면 되는 것 아닌가? 하는 의문에 휩싸이게 됩니다. 어째서, 왜, 도대체 더 극단적인 값들을 포함되어서 고려하여 확률로 판단 한단 말인가. 라는 질문이 스멀스멀 기어올라오는 것이 정상이 아닌가 생각합니다.

사실 굳이 검정만을 위한다면 관측값만 α와 비교하면 귀무가설을 기각할지 말지를 결정할 수 있습니다. Gaussian 분포를 예를 들어, 유의수준이 5%라면 α는 1.645 어쩌구 일 것입니다. 5%를 1.645로 변환하는 것부터 매우 귀찮은 일이군요. 그러니까, 표준화된 관측값이 1.645보다 큰지 작은지만 확인하면 검정이 가능합니다.

그런데, 굳이 극단치를 더 더해서 p value를 구하게 되는데, 갑자기 영문을 모르겠습니다만, 가만히 생각해보면 그 이유는 너무나 기가 막힙니다. 예를 들어 α를 5%로 해서 관리하게 되면 가정했던 분포가 무엇이더라도 5%는 해당 관심 분포에서의 5%에 해당하는 확률변수값을 구할 필요가 없습니다. 그저 어떤 값인지는 모르겠지만, 최극단으로부터 5%까지의 어떤 영역입니다. 그러면 이 5%와 비교할 수 있으려면 최극단으로부터 관측값까지의 확률값이면 α와 곧바로 비교 가능합니다. 면적이 5%보다 작으면 Significant 하다고 판단하면 되는 그런 표준화된 방법이 될 것입니다. 으흥!

게다가 α와 p value를 확률로 관리하게 되면, 또 다른 관점에서의 해석이 가능한데요. 그 이야기를 해 볼까 합니다.

이 이야기를 하려고 하면 헷갈리고 또 헷갈리는 용어가 등장하게 됩니다. 그것이 False Positive, False Negative라는 용어인데, 잘못된 긍정, 잘못된 부정이라는 뜻이 되겠습니다. 오, 그러면 긍정을 잘못했고, 부정을 잘못했다는 뜻이니까 다시 한번 정리하면

False Positive - 잘못된 긍정 - 없는데 있다고 했다. - 잘못된 양성 판정
False Negative - 잘못된 부정 - 있는데 없다고 했다. - 잘못된 음성 판정

정도로 정리하면 매우 쉽게 정리될 것 같습니다. 모두 어찌 되었건 잘못된 판단입니다. 만 통계에서는 "False Positive - 잘못된 양성반응"을 더 위험한 것으로 판단합니다. 놓치는 것은 어쩔 수 없지만, 아닌 것을 그렇다고 한다면 큰 실수가 되니까요.

여기에서 잠시 끊어서 얘기하면 다음과 같은 표의 오류에 대한 정의가 많이 나오는데, 이거야 말로 False Positive나 False Negative의 헷갈림은 저리 가라 할 수 있는 헷갈리는 테이블입니다. 특히 1종 오류 2종 오류라는 말이 나오는데 말이죠. (더불어 α, β False Positive, False Negative라는 용어도 등장! 역시 헷갈리는 용어로 우리를 실망시키지 않는군요!)

자세히 살펴보면 귀무가설을 잘못 기각하면 1종오류(Type I Error), 귀무가설을 기각하지 않아서 생기는 오류를 2종 오류(Type II Error)라고 합니다. 1종 오류, 2종 오류와 False Positive, False Negative를 연결하면 어떻게 될까요?

그러니까 Null Hypothesis에 대하여,
1종 오류 = False Positive = 잘못된 양성 판정으로 → 잘못된 뭔가 있다?고 판단 → 귀무가설 기각하면 안 되는데 신나게 기각!

2종 오류 = False Negative = 잘못된 음성반응으로 → 뭔가 있는데.. 그냥 넘어갔네 → 귀무가설을 잘못 채택

이라고 보면 틀림없습니다. 그러니까, 맞딱뜨리고 싶지 않은 오류가 1종 오류이고, 그것이 False Positive입니다.

실예에서 찾아보자면, 디지털통신시스템에서 신호가 있느냐 없느냐를 따질 때도 이런 검정과정을 설계해서 이용하게 되는데, 보통 신호가 없을 때 소음(Noise)으로 인하여 신호가 있다고 잘못 판단할 수가 있습니다. 신호가 있을 때와 없을 때를 잘 판단하기 위하여 판단 기준인 Threshold 값을 정하는데, 이때 사전 검정 방법을 통해서 시스템을 설계합니다.

이때 Null Hypothesis는 신호가 없음이고, 1종 오류인 False Positive일 떄를 False Alarm이라고 따로 부릅니다. False Alarm이라는 것은 없는 데 있다고 판단하는 경우이죠. 매우 시스템에 치명적으로 안 좋은 경우이니까, 이런 경우가 나오지 않도록 시스템을 구성하는 것이 매우 중요합니다.

유의수준(Significance Level), 채택역, 기각역, 신뢰수준등의 용어를 다시 한번 정리해 보면.

① 귀무가설의 분포
② 귀무가설의 95% 신뢰구간
③ 귀무가설의 채택역
④ 귀무가설의 기각역
⑤ 유의수준 (2.5%)

여기에서 귀무가설의 분포, 95% 신뢰구간, 양쪽의 유의수준을 합한 5% 유의수준은 순전히 예입니다. 귀무가설의 분포가 마치 Gaussian처럼 그려졌지만, 그냥 편리하게 그린 것뿐입니다.

자, 이때, 5% 유의수준의 분계점을 가진 양측 가설 검정을 수행한다면 - 만일 양쪽의 끝의 2.5% 유의수준보다 더 바깥쪽에 데이터가 관측되었을 때 귀무가설을 기각하는 검정 - 잘못된 판단은 False Positive가 20번 중 1번 예측됩니다. (5%) 사실상 유의수준 α를 설정하고 이 값보다 작은 (더 극단의) 기각역에서 관측 데이터가 실제로 관측되었을 때 귀무가설을 기각한다면 False Positive에 의한 위험도의 확률로서의 최댓값이 α라는 것입니다.

False Positive 위험도의 확률 최댓값을 정하긴 했는데, 이것 참 진짜 얼마나 위험한지 알고 싶은 것인 - 그 척도가 p value입니다. - 당연한 이야기입니다.

요컨대, 검정을 극단치를 더하는 것인 정의인 p value를 통해 검정을 하게 되면, 관측된 검정 통계량에 의한 p value가 5%보다 작을 때 False Positive에 의한 오류의 확률이 5%보다 작아집니다. 그러니까, p value는 관측된 데이터에 의한 False Positive 위험률의 최댓값이 되는데, p value와 α를 비교해서 덜 위험하다면 기각하는데 부담이 없겠죠. α는 (False positive)을 5%까지 허용하겠다는 연구자의 의지이니까, extreme value까지 합쳐서 5%까지는 틀려도 된다고 하자.는 의미와 같습니다.

그러니까, p value는 False Positive에 대한 위험도입니다. 한마디로 귀무가설을 기각하는 데에 대한 위험도이고, 이 값이 작으면 귀무가설을 기각하는데 확률적으로 부담이 적게 괜찮을 것이다.라는 뭐 그런 얘기죠.

그런 이유로 처음으로 돌아왔지만, p value의 정의는 관측된 검정 통계량보다 더 극단치를 포함하는 확률을 계산해서 하는 뭐 그런 스토리입니다.

게다가 처음에 이야기한 p value를 사용할 때의 이점이랄까. 그것을 다시 한번 상기하면, 검정하려고 하는 분포가 무슨 분포를 갖더라도 확률로 비교할 수 있다는 점까지 포함되어서 p value를 극단치까지 더하면 많은 장점이 있다는 점을 알면 그냥 더하는 것은 아니고만 하고 무릎을 탁 치며 눈을 희번덕 번뜩일 수 있습니다.

False Positive, False Negative 중 어느 것이 더 위험할까라는 질문을 다시 정리하면 아무래도 Type I 오류(False Positive)쪽이 좀 더 위험하다고 보면 좋지 않을까 합니다. 사실 보수적으로 생각해 보자면요, 없는 걸 있다고 주장하기 시작한다면 매우 혼란스러운 상황이 올 것이라 생각합니다. 명확한 대립가설의 증거가 없는데도 귀무가설을 기각하지 않도록 Type I 오류를 통제하는 것이 더 중요하다고 합니다. 참고로 Type II 오류를 통제하는 것을 검정력이라고 말합니다만, 이 이야기는 나중에 기회가 있다면 다시 하기로 하죠.

p value 해킹이라는 것이 있는데, 이 해킹이라는 것이 뭔가 "어떤 문제에 대해 해답을 구하는 행위"로서 긍정적인 측면이 없지 않아 있는데, 그런 의미와는 조금 다르게, 원하는 p value가 나올 때까지 실험한다는 의미에 가깝습니다. 해킹이 좋지 않은 의미로 사용되고 있군요.

저작자표시 비영리 변경금지 (새창열림)

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -

티스토리툴바