모분산을 추정해 보겠습니다. 난데없이 선언같이 들리겠지만, 이렇게 선언을 하면서 시작하는 것도 꽤나 진지하게 보일 수 있으니까. 모분산을 추정해서 얼마나 모집단이 얼마나 퍼져 있을지 적당히 상상할 수 있게 하는 과정입니다. 이전까지는 모분산을 대충 표본분산으로 대치해서 사용했었으니까. 조금은 이것도 추정이라는 것을 할 수 있지 않을까 하는 뭐 그런 이야기입니다.
일단, 모분산을 얘기할 때는 χ²(카이제곱)분포를 이용해야 합니다. χ²는 읽기는 카이스퀘어라고 읽습니다. 전에도 얘기했지만, χ² 분포 이름의 유래가 그나마 위트가 있는 것 같습니다.
모분산을 추정하는 과정은 정말 감사하게도 간단합니다. 어떻게 하는지 보자면 다음과 같습니다.
(n−1)s2σ2
이 통계량이 χ2(n−1)를 따른다는 얘기는 이미 둘러본 바 있습니다. 아. 그랬나요? - 통계에 사용되는 확률 3형제에서... - 표본과 표본평균과의 차이의 제곱의 합으로부터 얘기했었죠. 정확하게 이야기 하자면,
∑(xi−ˉx)2σ2가 χ2(n−1)을 따른다고 했습니다. 분명히.
이것은
(n−1)s2χ2α/2,n−1≤σ2≤(n−1)s2χ21−α/2,n−1를 따른다고 할 수 있습니다. 음? 왜죠?
자, 정신을 잘 차리면 살 수 있습니다. 집중력을 발휘하여, 이것도 역시 평균 추정과 전혀 다를 바가 전혀 없습니다. 세 번째 여자친구와의 첫 데이트 법칙처럼 관측치가 upper bound는 관측치보다 커야 하고, lower bound는 관측치보다 작으면 됩니다.

χ²의 분포를 따른다고 했고, 95% 신뢰구간으로 추정한다고 하면, 어떤 관측치가 있다고 할 때 95% 신뢰구간의 상한값 χ2n−1,97.5%는 관측치보다 커야 하고, χ2n−1,2.5%는 관측치보다 작아야 합니다. 이걸 수식으로 나타내면 그림 안의 ⓵, ⓶이고요 다시 한번 정리하여
최종적으로 어렵게 쓰면
(n−1)s2χ2α/2,n−1≤σ2≤(n−1)s2χ21−α/2,n−1
이렇게 됩니다.
자, 그럼 복잡하게 할 것 없이, 예를 들면 더 잘 이해되니까, 한번 해보시죠.
78m, 85m, 82m, 79m, 77m 의 데이터가 있다고 합시다. 이때 모분산 σ2를 추정한다면
1) 표본분산을 계산한다. (계산의 편의로 반올림)
s2=10.75≈10.8
2) 위의 통계량을 계산하면,
s2σ2×(n−1)=10.8σ2×4=43.2σ2
카이제곱분포의 95% 구간은
0.4844~11.1433 이므로, (n-1자유도)
0.4844≤43.2σ2≤11.1433
부등식을 풀면 됩니다. 이걸 풀면
3.877≤σ2≤89.182
오, 이렇게 3.877~89.182의 구간에서 신뢰도 95%로 모분산을 추정 가능합니다.
홋 뭐야 간단하죠?

이전에 이야기 했던 "세 번째 여자 친구와의 첫 데이트처럼 법칙"은 추정을 할 때 늘 적용할 수 있으니, 절대로 잊으면 안 됩니다. 그 점만큼은 양보할 수 없다는 각오입니다. 먼 훗날 "하라는 대로 할 걸 그랬나 봐"라고 해봐야 그때는 "그러게 말이야"라고 말하는 것이 최선일 테니까요.


댓글