모분산을 추정하는 그렇고 그런 아주 짧은 이야기

모분산을 추정해 보겠습니다. 난데없이 선언같이 들리겠지만, 이렇게 선언을 하면서 시작하는 것도 꽤나 진지하게 보일 수 있으니까. 모분산을 추정해서 얼마나 모집단이 얼마나 퍼져 있을지 적당히 상상할 수 있게 하는 과정입니다. 이전까지는 모분산을 대충 표본분산으로 대치해서 사용했었으니까. 조금은 이것도 추정이라는 것을 할 수 있지 않을까 하는 뭐 그런 이야기입니다.

일단, 모분산을 얘기할 때는 χ²(카이제곱)분포를 이용해야 합니다. χ²는 읽기는 카이스퀘어라고 읽습니다. 전에도 얘기했지만, χ² 분포 이름의 유래가 그나마 위트가 있는 것 같습니다.

모분산을 추정하는 과정은 정말 감사하게도 간단합니다. 어떻게 하는지 보자면 다음과 같습니다.

$$
\cfrac{(n-1)s^2}{\sigma^2}
$$
이 통계량이 $\chi^2_{(n-1)}$를 따른다는 얘기는 이미 둘러본 바 있습니다. 아. 그랬나요? - 통계에 사용되는 확률 3형제에서... - 표본과 표본평균과의 차이의 제곱의 합으로부터 얘기했었죠. 정확하게 이야기 하자면,

$ \cfrac{\sum{(x_i-\bar{x})^2}}{\sigma^2}$가 $\chi^2_{(n-1)}$을 따른다고 했습니다. 분명히.

이것은
$\cfrac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}} \leq \sigma^2 \leq \cfrac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} $를 따른다고 할 수 있습니다. 음? 왜죠?

자, 정신을 잘 차리면 살 수 있습니다. 집중력을 발휘하여, 이것도 역시 평균 추정과 전혀 다를 바가 전혀 없습니다. 세 번째 여자친구와의 첫 데이트 법칙처럼 관측치가 upper bound는 관측치보다 커야 하고, lower bound는 관측치보다 작으면 됩니다.

χ²의 분포를 따른다고 했고, 95% 신뢰구간으로 추정한다고 하면, 어떤 관측치가 있다고 할 때 95% 신뢰구간의 상한값 $\chi^2_{n-1, 97.5\%}$는 관측치보다 커야 하고, $\chi^2_{n-1, 2.5\%}$는 관측치보다 작아야 합니다. 이걸 수식으로 나타내면 그림 안의 ⓵, ⓶이고요 다시 한번 정리하여
최종적으로 어렵게 쓰면

$\cfrac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}} \leq \sigma^2 \leq \cfrac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} $
이렇게 됩니다.

자, 그럼 복잡하게 할 것 없이, 예를 들면 더 잘 이해되니까, 한번 해보시죠.

78m, 85m, 82m, 79m, 77m 의 데이터가 있다고 합시다. 이때 모분산 $\sigma^2$를 추정한다면
1) 표본분산을 계산한다. (계산의 편의로 반올림)
$s^2 = 10.75 \approx 10.8$

2) 위의 통계량을 계산하면,
$\cfrac{s^2}{\sigma^2} \times (n-1) = \cfrac{10.8}{\sigma^2}\times{4} = \cfrac{43.2}{\sigma^2}$

카이제곱분포의 95% 구간은
0.4844~11.1433 이므로, (n-1자유도)

$$ 0.4844 \leq \cfrac{43.2}{\sigma^2} \leq 11.1433 $$
부등식을 풀면 됩니다. 이걸 풀면
$$ 3.877 \leq \sigma^2 \leq 89.182$$

오, 이렇게 3.877~89.182의 구간에서 신뢰도 95%로 모분산을 추정 가능합니다.

홋 뭐야 간단하죠?

이전에 이야기 했던 "세 번째 여자 친구와의 첫 데이트처럼 법칙"은 추정을 할 때 늘 적용할 수 있으니, 절대로 잊으면 안 됩니다. 그 점만큼은 양보할 수 없다는 각오입니다. 먼 훗날 "하라는 대로 할 걸 그랬나 봐"라고 해봐야 그때는 "그러게 말이야"라고 말하는 것이 최선일 테니까요.

저작자표시 비영리 변경금지 (새창열림)

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -

티스토리툴바