확률과 통계의 관계 - 느닷없이 확률을 배우는 이유

확률과 통계는 어째서 붙어 다니는 걸까. 고등학교 시절로 거슬러 올라가면, 어느 날 갑자기 - 정말 뜬금없이 - 경우의 수를 배우기 시작하게 되는데, 더욱 당황하게 만든 건 경우의 수 자체를 공식으로 배우게 된다는 사실입니다. 저로서는 매우 곤혹스러운 일이었는데, 수학을 매우 좋아하는 저로서도 갑자기 방금 배운 공식으로 문제를 풀어 재끼는 이 상황에서 네? 뭐라고요? 저기 잠시만요 하고 당황하게 되는 일이 한두 번이 아니었습니다. 이걸 하나하나 따져보지 않고 공식으로 한다는 신선한 문화적 충격이라고나 할까요.

수학 공식으로 접근하는 "경우의 수"가 확률이라는 것을 배우기 위해 필수라고 생각하긴 하지만, 그래도 이건 야 너무한 걸 하고 입이 나오게 중얼거리게 만드는 것임은 틀림없습니다. 이건 어느 수학 선생님이 하신 말인데, 수학을 좋아하는 학생들 중에 확률과 통계 때문에 좌절하는 학생들을 많이 보았다는 증언이 자꾸 제 귀에 맴돌게 되어, 이것 참 곤란한데 라고 생각 중입니다.

그래서 말인데, 확률이라는 것은 그냥 우리가 본능적으로 받아들이듯이 가능성 정도로 이해를 하고 통계를 바라봐야 지치지 않고 더 앞으로 전진할 수 있지 않을까 생각합니다. 경우의 수를 풀다가 쓰러지면 곤란하잖아요. 털썩.

이렇게 당황스러운 경우의 수를 지나가면 순식간에 결국 피하지 못하고 확률이라는 걸 하게 되고, 곧바로 통계로 넘어가 버리니까, 정말 순식간에 내가 지금 뭘하고 있는 거지? 하고 길을 잃어버렸던 기억이 나버리네요.

대체, 어째서, 왜 확률과 통계가 같이 다니는 걸까요? 사실 확률과 통계가 같이 다니는 이유는 간단합니다. 통계에서 확률을 사용하니까 확률과 통계가 같이 다니는 거예요. 통계에서 확률을 어떻게 사용하는가? 나는 본 적이 없는데? 라는 생각이 드는 것이 당연합니다.
사실 추론통계에서 확률이 사용된다고 생각하면 매우 쉽게 접근할 수 있습니다. 또한 예측에도 사용되니까 이건 쉽게 이해 할 수 있겠습니다. 그러니까, 통계에서 뭔가 추론을 하거나 예측을 할 때 확률을 이용하여 추론하거나, 확률을 이용해서 설명하게 됩니다.

무엇을 추론한다는 의미인가? 라는 질문이 또 고개를 드는 게 당연합니다. 통계는 표본을 통해서 모집단을 추론할 때 확률을 이용해서 계산하고, 결과를 표현합니다. 이런 걸 모집단의 특성을 설명하는 수인 모수라고 부르고, 영어로는 parameter라고 합니다. 모평균, 모분산, 모표준편차, 모비율, 모상관관계 등입니다.

여기에서 더 재미있는 사실이 있는데, 일반적으로 확률에서 배우는 알려진 확률분포들이 여러 가지 있는데, 이 분포들이 평균과 분산만 알면 모두 설명되어진다는 재미있는 사실입니다. 그러니까, 이런 것을 Parameter모수라고 부르고, 우리가 표본을 통해서 평균과 분산을 추론할 수 있다면 모집단도 어느 정도 확률분포로 설명할 수 있다는 것이죠.

여기에서 또 더 재미있는 - 자꾸 재미있다고 해서 미안한 생각이 듭니다만 - 사실은 표본평균을 통해 모집단의 평균을 추정할 때 표본평균 역시 모집단의 분포와 상관없이 어떤 특정한 확률분포 - 여기서는 Gaussian - 를 이루더라 하는 사실입니다. 그러니까 결국 모수를 표현할 때도 확률로 표현할 수 있게 되는 것입니다.

어쨌든 결국 모수를 추론하기 위해 표본을 뽑게 되는데 이 표본들에서 나오는 여러가지 수치들을 통계량이라고 부르고, 이 통계량이 "확률변수"라는 사실인 것입니다. 표본을 뽑을 때 마다 달라질테니까요.

확률은 알려진 모델이 주어져 있고, Data를 예측하는 것이고, 통계는 Data가 주어져 있고, 모델을 예측하는 것이라니. 정말입니까? 네. 그런 것 같네요. 어느 정도 이해가 되는 말인 것 같습니다만.

어찌 보면 통계는 귀납적인 접근이라고 보면 좋겠습니다.

결국
① 확률모형은 확률함수로써 불확실성을 계량화하기 위해 사용하는 수학적 표현이고,
② 이런 확률모형에 사용되는 계수들을 모수, 즉 parameter라고 부릅니다.
③ 그러니까, 통계학에서 추론이라는 것은 표본을 이용해서 모수를 추정을 하는 것이고,
④ 그러니까 모수, parameter를 추정한 할 수만 있다면 확률 모형을 추정할 수 있다는 말이고,
⑤ 확률 모형을 안다는 것은 그 분포를 안다는 것과 같은 말이며,
⑥ 분포를 안다는 것은 모집단을 안다는 뜻이며, 어떠한 X값이든 그 X가 발생할 확률을 얻을 수 있다는 말입니다.

그러니까, 결론적으로 얘기하면, 통계는 표본을 가지고 모집단을 확률로 예츠으윽!!!! 이것이 다 입니다. (사실 고백하자면 이 얘기를 백만번 들었던 것 같습니다만, 엣, 진짜요? 또 묻게 되는 뭐 그런 중요한데 시시한 이야기입니다.)

결국 이런 스토리인 것입니다. 아하. 그래서 확률과 통계가 같이 다니는구나. 하고 생각한다면 조금은 마음이 후련해지는 것 같은 느낌입니다.

사실 요즘 세상이 빅데이터 세상이고, 빅데이터가 모집단 그 자체인데 의미가 있나요? 라고 말한다면 빅데이터로 모은 그 모집단이라고 생각되는 집단도 사실은 큰 표본이라고 보는 것이 더 정확한 것 아닐까? - 라고 생각합니다 - 모집단에 가까운 큰 표본이기 때문에 추론통계가 또한 역시 필요한 것 아닌가 생각합니다. 아 물론 어차피 통계가 오차라는 것을 포함하기 때문에 어-엄-청 큰 데이터를 모집단이라고 생각한다고 해서 또 누가 뭐라 할 만큼 큰 문제는 없지 않을까 하는 약간 무책임한 생각도 역시 하고 있습니다.

모수적 비모수적 방법이라는 말이 있는데, 비모수적 방법이라는 것은 표본이 너무 작거나, 모집단의 Parameter 자체에 대한 접근을 하지 않는 경우를 의미하는데, 비모수적 방법은 모집단의 분포 유형에 관계없이 적용할 수 있기 때문에 모집단의 분포에 대한 가정을 하지 않습니다. 그러니까 분포무관 통계학(distribution free statistic)이라고 불리기도 합니다. 또, 표본의 크기가 작을 때도 비모수적 방법을 사용합니다. 모수통계의 가장 많이 다루는 모형은 정규분포입니다. 2개의 모수로 모든 것이 설명 가능합니다. - 그것은 Mean(μ)과 Variance(σ²) 입니다 - 이제 지긋지긋하게 만나게 될 거에요.

이런 얘기를 또 하게 되면, 너무 흥미진진해져 버리니까 - 라고 하자구요 - 일단은 모르는 척하고 지나가겠습니다.

보통 통계량(Statistics)이라는 말과 모수라는 말이 나오는데 모수(Parameter)라는 말과의 차이는 모수는 모집단이 변하지 않으니까 변하지 않는 값, 통계량은 표본을 어떻게 추출하느냐에 따라 변하는 값입니다. 여기에서 중요한 논리가 있는데 "표본 추출할 때마다 통계량이 달라질 텐데, 이렇게 변하는 값으로 어떻게 모수를 추정하나요?"라는 질문이 당연히 나올 수 있습니다. 그래서 여기에서 중요한 내용이 통계량 자체가 확률변수(Random Variable)라는 것입니다. 이 통계량을 이용해서 모수를 확률로 추정하는 것이죠.

그런 의미에서 확률은 측정 가능한 이벤트가 일어날 가능성을 표현하는 학문이고, 통계는 Sampling(표본추출)을 통해서 관측한 현상에 대한 분석을 하는 학문이라고 보면 조금 더 쉬운 정의가 아닐까 생각합니다. 아까 살펴본 얘기를 다시 쓰는 셈인데,
확률적 계산 → 알려진 모집단에서 주어진 표본이 얻어질 확률 계산
통계적 추론 → 주어진 표본을 가지고 모집단에 대해 예측입니다.

자꾸 첨언해서 미안합니다. 만. 조금 더 실제적인 예를 든다면 다음의 예처럼 비유하면 쉬운 비유가 될 것 같습니다.

1. 서랍 속에 빨간 양말이 8개, 까만 양말이 2개 있다는 사실을 알고 있다고 합시다.
이때 양말을 랜덤을 뽑는다고 했을 때, 빨간 양말을 뽑을 확률은 얼마입니까? 라고 한다면 확률인데
2. 서랍 속에서 양말을 계속 뽑아 봤더니 10번 중에 빨간 양말이 2번, 까만 양말이 8번 나오더라. 이 현상을 보고 빨간 양말과 까만 양말의 개수를 추정하게 되면 이건 또 통계 문제라고 보면 쉬울 것 아닌가 생각합니다. 물론 제 옷장의 서랍에는 빨간 양말과 까만 양말은 없고, 흰 양말만 잔뜩 있습니다. 개인 취향이니까요.