본문 바로가기
Binomial의 Gaussian으로의 근사의 실체 - 중심극한정리를 이용한

확률을 하면서 가장 놀랐다고 할까, 감동한 것은 Binomial(이항분포)이 Gaussian(가우시안)으로 근사될 수 있다는 것을 알았을 때였습니다. 이미 경험해 본 적이 있는 사람은 물론 알고 있으리라 생각하지만, 이 사실은 정말 여러 가지 문제를 간단하게 풀 수 있게 하는 매직이었기 때문에 '아, 이제 걱정 없네'라고 안도해 버릴 수 있을 정도였습니다. 짧은 상식적인 얘기로는 de Moivre(드 무아브르)가 증명했다고는 하지만 라플라스 정리로도 많이 알려져 있죠. 

그런데 매우 중요한 사실이 있는데, 어딜 봐도 Binomial(이항)분포가 Gaussian(정규)분포로 근사한다는 내용만 주구장창 있는데, 실은 Bernoulli(베르누이) 확률변수를 전체 시행 횟수만큼 더하면 Binomial이기 때문에 실은 Bernoulli의 합은 Gaussian으로 근사 된다는 사실입니다. 

이런 말을 해 주지 않기 때문에, 대부분의 사람들이 오해하기 시작하는 부분이 있죠. 많이 시행하면 Gaussian이 된다. 뭐 그런 느낌? 입니다. 

일단, Bernoulli(베르누이) 분포는,
$$P(X=x)=p^x(1−p)^{1−x} $$
Bernoulli(베르누이)분포의 기대값과 분산은 다음과 같습니다.
$$E(X)=p, Var(X)=p(1−p)$$

우리 이전에 보았던 중심극한정리 중 N 개의 확률 변수가 어떤 확률 분포를 따르든지 상관없이 N 이 충분히 크다면 그 합은 가우시안 분포를 따른다는(Generalized CLT theorem)을 여기에서 이용해 보기로 해요. 

$ \bullet \space X_1, X_2, \cdots, X_n ~ Bernoulli (p), i.i.d $
$ \bullet \space Y = X_1 + X_2 + \cdots,\space X_n : Binomial $
$ \bullet \space np \geq 5 $

라고 쓰고 해석은 
서로 독립이면서(i.i.d), 같은 분포의 $ X_1, X_2 \cdots, X_n $의 베르누이 시행이 있다고 치고, 그때 $ Y $ 는 그 확률변수들의 합이고, Binomial은 n번 시행일 때, 전체 성공횟수가 확률변수의 값이므로 베르누이 시행을 모두 더하면 된다. 고 해석합니다. 

이때 Gaussian으로의 근사로서의 이항분포는 성공확률이 p인 Bernoulli 시행을 n번 반복한 경우 성공횟수가 가지는 확률분포, 그러니까 성공횟수에 대한 Histogram(도수분포)을 의미하고, 이런 이항분포의 특징은 n이 증가함에 따라 분포의 형태가 점차 대칭에 가까워지고 종모양을 이루게 되는 것을 말합니다. 

Binomial을 시행한 횟수별로 성공횟수에 따른 분포를 그려서 그걸 겹쳐서 그려보면 흔히 보는 그 Gaussian 그래프가 눈앞에 마법처럼 나타납니다. 한번 눈앞에 나타나면 이 광경이 잘 잊혀지지 않습니다. 다음의 그래프는 주사위를 던져서 1이 나오는 경우를 성공, 그 이외의 숫자가 나오는 경우를 실패로 했을 경우에 그 성공 횟수를 그려본 것입니다. Binomial이 꼭 ½의 확률을 갖는 것만 - 예를 들어 동전 던지기 - 의미하는 것은 아니니까, 조금 특이한 예를 들어봅니다. 

$$ P(X=x) =\space _nC_x \left(\cfrac{1}{6}\right)^x \left( \cfrac{5}{6} \right)^{n-x} $$


아래의 x축은 성공횟수, y축은 확률을 말합니다. n은 시행횟수이고요.
이 그래프를 잘 이해해야 하는데 Binomial에서 시행횟수 n이 클수록 점점 가우시안처럼 되어 간다는 의미입니다. 

n=50인 케이스를 보면 대충 Gaussian이랑 비슷하죠? 이런 경우 어떻게 Gaussian으로 근사하는가? 하면 

$ P(X=x) =\space _nC_x {p}^n q^{n-x} \approx N(np, npq) $ 이런 식으로 근사합니다. ($p$ 는 성공확률, $q$는 실패확률)

그러니까, Y는 $ μ = np, σ = \sqrt{npq}   $ 를 따르는 Gaussian으로 근사할 수 있습니다. (n이 충분히 크면 이라고 하는데 그럼 어느 정도 크면 되는가 하면 $np$ 과 $nq$가 모두 5이상인 경우를 의미합니다. 결국 p가 작으면 n이 무쟈게 커야하고, p가 크면 n이 적당히 커도 된다는 의미로 받아들여 주세요.

이게 어떻게 이런 일이 벌어지는가 하면, 중심극한정리에 의해서(여기에 중심극한정리가 나왔다고 해서 많이 시행하니까 Gaussian이되지 라고 생각하고 오해하면 안 된다고 생각합니다.)  Bernoulli Trial의 표본평균의 분포는  $ \bar{X} \sim N(\mu_x, \frac{\sigma_x^2}{n}) \sim N(p,\frac{p\cdotp(1-p)}{n}) $ 이 되는데, 이게 뭔말이냐면, p는 확률이니까, 모집단에서 p비율 만큼 나올 테죠. 성공횟수의 평균에 가까울 것이고, Variance는 모집단의 $\frac{Variance}{n}$ 일 테니까, 막상 Bernoulli Trial의 합(Y)은 다음과 같이 표현될 것입니다. 

$ Y = X_1 + X_2 + \cdots + X_n $으로부터 
$ Y = n \cdot \cfrac{X_1 + X_2 + \cdots X_n}{n}$ 이니까 
$ Y = n \cdot \bar{X}$ 이고,  

이 시점에서,  

$ \bar{Y} =  n \cdot \bar{X} $이고, $\sigma^2 _Y= n^2 \sigma_\bar{X}^2$ 니까, 
$ Y \sim N(n\cdot p, \space n^2 \cdot \frac{p(1-p)}{n}) = N(np, np(1-p))$ 로 근사할 수 있습니다. 

항상 글을 쓸 때 마다 개수VS갯수, 회수VS횟수가 헷갈리는데 개수가 맞고, 횟수가 맞다고 합니다. 개수를 갯수로 쓰고 싶은 이 욕망. 타당한 욕망이 아닐까 하는 기분이 듭니다.  

다시 한 번 쉽게 얘기하면 세상의 모든 샘플링은 샘플링 할 때마다 서로 독립-서로 영향을 끼치지 않고- 이고, 서로 같은 분포라면, 나오는 경우를 합해서 히스토그램(합이니까)을 그렸을 때 많이 샘플링하면 Gaussian에 근사한다고 표현할 수 있겠습니다.

정규분포는 표본에서 일어날 수 있는 개별 사건들이 서로 독립적이고 서로 분포가 동일해야만 성립됩니다. 특정 학교 학생들의 키의 분포가 정규분포를 보이는 이유는 키에 관한 한 학생들이 상호작용을 하지 않고 학생이 표본에 추가될 때의 영향력은 다른 학생들과 같은 이유로 서로 독립이기 때문입죠. 가장 큰 문제는 어떤 현상을 접할 때 그것이 정규분포를 따르리라 자동적으로 간주하는 경향이 있습니다. 사건이 서로 영향을 미치는 경우에는 아무리 샘플링을 많이 해서 합하거나, 평균을 내도 Gaussian으로 근사 되지 않습니다. 그동안 계속된 의사결정의 실패는 정규분포가 아닌 것을 정규분포라고 가정했기 때문일지도 모릅니다. 세상은 생각보다 '정규적'이지 않아서 말이죠, 그런 생각을 하면 조금은 Gaussian을 이해하는 데 도움이 되지 않았을까 생각합니다. 

디리클레분포Dirichlet라는게 있는데, 베타분포를 더 확장한 거라 생각할 수 있습니다. 베타분포는 0~1의 단일 확률변수를 따지는데 디리클레분포는 0~1의 다변수 확률분포를 따집니다. 그정도만 아는 걸로 선을 넘지 않는 것이 지금은 좋겠습니다.  

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -