본문 바로가기
왜 표본분산은 n-1로 나누죠? 자유도, 불편추정량에 대한 고백

표본 분산을 구할 때 왜 n으로 나누지 않고, n-1로 나누는지 참으로 오랫동안 괴로웠습니다. 계산해 보면 진짜 그렇긴 하지만, "본능적"으로 이해가 잘 되지 않으니 얼마나 괴로웠는지 모릅니다. 게다가 왜 n-1을 Degrees Of Freedom(자유도)라고 부르고, 왜 자유도로 나누는가? 하는 의문을 정말 풀어낼 수가 없었습니다. 일단 여기에서는 자유도라는 개념을 빼고 왜 n-1로 나누는가에 - 산수적인 증명? 이랄까요 -  조금 더 포커스를 맞춰서 수식적으로도 먼저 한번 보고, 자유도에 관한 직관적인 느낌은 다음 이야기에서 이해해 보도록 할까 합니다. 

가만히 생각해 보면, 당연하지만, 이게 왜 어려운지 알 수 있습니다, 

"분산은 차이의 제곱한 것들의 합을 n으로 나눈다" 

분산의 정의를 '제곱의 차이의 합을 "n"으로 나눈다.'라고 알려준 다음에 표본 분산은 n-1로 나눈다. 알겠나? 응? 이런 의아한 표정의 사람에게 모집단에 대한 표본의 분산 불편추정량을 얘기하려니까 앞뒤가 안 맞게 되는 현상입니다. 왜죠? n으로 안 나누고, 왜 n-1로 나눠요? 왜 때문이죠?라고 자연스럽게 다시 의문이 따라올 수밖에요. 

보통 이런 경우 말이 막히면, 표본분산의 기댓값을 모 분산과 일치시키기 위해서라고도 표현합니다. 모 분산보다 표본 분산이 더 작게 나와서 그것을 보정한다는 얘기인데요. 

그 말도 그럴듯한 것이, 우리는 표본을 통해 표본의 분산을 알고 싶은 것이 아니라, 표본 분산을 통해 모집단의 분산 그러니까, 모 분산을 추정하고 싶다는 사실을 잊으면 안 됩니다. 모집단 전체 자료를 다 조사할 수 없기 때문에 일부 표본만으로 모집단을 추정하려고 하는 것입니다. n으로 나눈 건 그 n개의 "표본의 분산"일뿐인 것이지 그게 모 분산인 건 아니라는 당연한 사실을 잊으면 안 되겠습니다. 

그럼 표본으로 모분산을 어떻게 추정하는가?
결론부터 이야기하자면, 표본 분산의 분모를 n-1로 바꿔주면 그 값의 기댓값이 "확률적"으로 모 분산의 추정 값이 됩니다. 여기에서 중요한 사실은 n이 아니라 n-1로 평균을 낸다면 모집단의 통계량을 정확하게는 아니더라도 어느 정도 맞게 Estimate 할 수 있다는 것입니다. 이렇게 계산한 추정량을 불편추정량이라고 부릅니다. 그러니까, 표본의 분산이라고 보기보다는 표본으로부터의 모 분산의 불편 추정량의 정의가 n-1로 나눈 것이고, "표본 분산을 이렇게 정의하면 헷갈리지 않겠군." 뭐 이런 접근입니다. (바꿔 말하면, 정의 그대로 n으로 나누면 편의추정량이 됩니다.)

그럼, 지금까지 말한 것이 실제로 그런지 증명하는 이런저런 접근을 설명해 보면 이렇습니다. - 사실 증명만으로는 어 정말 그러네, 정도는 되지만, 납득이나 감이 오진 않을 수 있으니, 음 그냥 아무 이유 없이 n-1로 나누는 건 아니구나 정도로 읽어주세요.-

첫번째 증명적 접근은 모 분산과 n으로 나눈 표본 분산의 차이를 구하는 방법을 씁니다. 

이것은 수학적인 접근으로 비교적 쉽게 증명할 수 있습니다. - 사실 수학적이라기보다는 산수에 가깝습니다만. -  간단하게 n 크기의 모집단에서 중복을 허용하여 추출한 n개의 표본을 이용하여 모집단의 분산과 표본의 분산의 차이를 계산해 보면 다음과 같습니다.  - n-1이 아니라, n으로 나눈 표본 분산입니다 - 사실 맨 첫 줄과 마지막 줄만 봐도 괜찮지 않을까 합니다. 중간 단계는 그다지 전체를 이해하는 데 도움이 되지 않는 것 같다는 개인적인 사견임을 조심스럽게 말해 둡니다. 아, 또 한가지 헷갈리지 말아야 할 것은 σ는 Estimation값이고, μ는 Constant입니다. 이게 의미하는 것은 σ를 표본으로 계산했기 때문입니다. 

$$\begin{array}{l}
\mathrm{E}\left[\sigma^{2}-s_{n}^{2}\right]\\=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right] \\=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(x_{i}^{2}-2 x_{i} \mu+\mu^{2}\right)-\left(x_{i}^{2}-2 x_{i} \bar{x}+\bar{x}^{2}\right)\right)\right]
\\=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\mu^{2}-\bar{x}^{2}+2 x_{i}(\bar{x}-\mu)\right)\right] \\
=\mathrm{E}\left[\mu^{2}-\bar{x}^{2}+\frac{1}{n} \sum_{i=1}^{n} 2 x_{i}(\bar{x}-\mu)\right] \\
=\mathrm{E}\left[\mu^{2}-\bar{x}^{2}+2(\bar{x}-\mu) \bar{x}\right] \\
=\mathrm{E}\left[\mu^{2}-2 \bar{x} \mu+\bar{x}^{2}\right] \\
=\mathrm{E}\left[(\bar{x}-\mu)^{2}\right] \\
=\operatorname{Var}(\bar{x}) \\
=\frac{\sigma^{2}}{n} \, \because \text{The variance of sample mean from Central Limit Thm.}
\end{array}
$$

어, 그러니까 모 분산과 표본의 분산, 이 두 개의 차이가 $\dfrac{\sigma^2}{n}$ 만큼 나는군요. 음음. 결국 모 분산이 $\dfrac{\sigma^2}{n}$만큼 크니까 그만큼 빼줘야겠습니다. 그래서 결국 

$\mathrm{E}\left[s_{n}^{2}\right]=\sigma^{2}-\dfrac{\sigma^{2}}{n}=\dfrac{n-1}{n} \sigma^{2} $이 되겠군요. 

그러니까 $\sigma^2$는
$\sigma^{2}=\dfrac{n}{n-1} \mathrm{E}\left[ s_{n}\right] ^{2} = \dfrac{n}{n-1} \dfrac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^2 = \dfrac{ \sum_{i=1}^{n}(x_{i}-\bar{x})^2}{n-1}  $ 

엇, 정말로 표본 분산을 계산할 때, n대신 n-1로 나누면 모분산과 비슷해 지는군요?  

또는,

$E\left(X^{2}\right)=\operatorname{Var}(X)+E(X)^{2}$ 의 성질을 이용해서 (지루하니까 다 읽지 않아도 됩니다)
$$
\begin{aligned}
E\left[\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right] &=E\left[\sum_{i=1}^{n} x_{i}^{2}-2 \bar{x} \sum_{i=1}^{n} x_{i}+n \bar{x}^{2}\right] \\
&=E\left[\sum_{i=1}^{n} x_{i}^{2}-n \bar{x}^{2}\right] \\
&=n E\left[x_{i}^{2}\right]-n E\left[\bar{x}^{2}\right] \\
&=n\left(\mu^{2}+\sigma^{2}\right)-n\left(\mu^{2}+\sigma^{2} / n\right) \\
&=(n-1) \sigma^{2}
\end{aligned} $$

요렇게 해서, 어, n대신 n-1로 나눠야 모분산과 비슷해 지겠구먼? 하고 결론 지을 수 있습니다. 그냥 수식으로만 보면 당연한 결과 같기도 합니다. 차이가 나니까요. 불편 추정량은 표본을 통해서 구해서 조금 손봤더니 (n-1로 대치하니까) 그 기댓값이 확률적으로 모집단의 값을 잘 Estimation 할 수 있네.라는 아름답지만 시덥지 않은 얘기. 자, 다시 한번 얘기하지만, 이런 모집단의 Parameter를 잘 Estimation 하는 값을 불편추정량이라고 부릅니다. 

이 접근은 그냥 수식적으로 보니 그렇네. 정도로 넘어가고요. 여기서 얘기가 끝나면 참 깔끔하고 좋겠는데, 저 n-1을 Degrees Of Freedom(자유도)라고 부르는 데서부터 비극이 시작되는데… 더 자세히 알고 싶으면 통계학과에 진학하도록 해. - 막상 통계학과에 진학하면 대학원에 가는 건 어때?라는 악마의 속삭임이 있다. - 라는 식으로 얘기를 들어본 적이 있습니다. 게다가 통계의 여러 부분에서 이 자유도라는 것을 사용합니다.라고 아무렇지도 않게 얘기합니다. 아니, 어? 도저히 연결이 안 되는 개념입니다. 이 자유도라는 것의 Intuition을 곧바로 다음 이야기에서 다룰 요량입니다. 요.

두 번째로 왜 n-1로 나눠야 하는지에 대하여 설명하는 방법은 표본의 분산이 왜 모 분산보다 작은 지를 보여주면서 이렇게 보정하면 된다고 설명하는 방식입니다. 

표본 분산이 왜 작은지-과소평가되는지-를 그림으로 볼 수 있는데, 과연 그렇군 이라고 느낄 수 있습니다. 실제로 표본의 분산이 모 분산 보다 더 작군요.

산수적인 유도 말고, 직관적으로 이걸 다시 정리해 보면,

표본 값들이 모평균에서 퍼짐⓵ = 표본값들이 표본 평균에서 퍼진 정도⓶ + 표본 평균의 퍼진 정도⓷가 되고요, 

각 항들을 수학적 표현으로 정리해 보면, 

표본 값들이 모평균으로부터 퍼진 정도 = 모분산 = σ² ⓵
표본 평균의 퍼진 정도 = 표본 평균의 분산 = σ²/n ⓷ (어, 여기에서 갑자기 중심 극한 정리가 튀어나오네요)

이 됩니다. 따라서 단순히 표본 평균을 이용해 구한 분산②는

표본 값들이 표본 평균에서 퍼진 정도⓶ = ⓵ - ⓷ = σ² - (σ²/n) = (n-1)σ²/n 
가 됩니다. 

그러므로, σ² = ⓶ n / (n-1) = $\sum{\cfrac{(x_i-\bar{x})^2}{n}} \cdot \cfrac{n}{n-1} = \sum{\cfrac{(x_i-\bar{x})^2}{n-1}}$이 되겠습니다. 

따라서, 위 식으로부터 표본 분산을 구할 때 n 대신 n-1로 나누어 주어야 정확하게 모 분산 σ²를 추정할 수 있습니다. 음. 

다시 한번 강조하지만, 표본의 분산을 n으로 나누는 것이 분산의 정의에는 부합되지만, 모집단의 분산을 추정하는 데 의미가 없으니까, 표본의 분산 기왕 계산하는 거 불편 추정량으로 계산해서 의미를 갖게 하자. 뭐 그런 식으로 생각하면 뭐 그까짓 것쯤이야 n-1로 나눠주지 정도의 마음의 관대함이 생기지 않을까 합니다. 

그렇긴 해도 표본의 크기가 클 때에는 표본의 분산을 모 분산으로 대치해서 사용합니다. 표본이 크면 n이나 n-1이나 그놈이 그놈이거든요. 하지만 n이 작을 때는 n으로 나누면 크기가 Bias 되어서 모 분산과 다르게 되지만, n-1로 나누면 Bias 안되고 잘 추정한다고 해서 불편추정량이라고 그렇게 부릅니다. 그러니까 다시 한번 얘기하지만 표본 분산의 정의는 모 분산의 불편 추정량으로 정의했기 때문에 n-1로 나누는 것입니다. 

 이미 얘기했고 살펴볼 이야기이긴 한데, 이 n-1이라는 것을 자유도라고 따로 부르고, 자유도로 나눈다는 표현을 마구 사용합니다. 이제까지는 수식적으로 차이가 나는 것을 증명해서 보았는데, 엣, 그러면 n-1이 자유도이고, 그러면 자유도라는 것은 구할 수 있는 어떤 값이고, 뭔가 공식 같은 것이 있는 것인가? 하는 의문을 갖는 것이 당연합니다. 아니, 뭐가 이렇게 자꾸 꼬리에 꼬리를 무는 거죠?

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -