Processing math: 100%
본문 바로가기
모분산을 추정하는 그렇고 그런 아주 짧은 이야기

모분산을 추정해 보겠습니다. 난데없이 선언같이 들리겠지만, 이렇게 선언을 하면서 시작하는 것도 꽤나 진지하게 보일 수 있으니까. 모분산을 추정해서 얼마나 모집단이 얼마나 퍼져 있을지 적당히 상상할 수 있게 하는 과정입니다. 이전까지는 모분산을 대충 표본분산으로 대치해서 사용했었으니까. 조금은 이것도 추정이라는 것을 할 수 있지 않을까 하는 뭐 그런 이야기입니다. 

일단, 모분산을 얘기할 때는 χ²(카이제곱)분포를 이용해야 합니다. χ²는 읽기는 카이스퀘어라고 읽습니다. 전에도 얘기했지만, χ² 분포 이름의 유래가 그나마 위트가 있는 것 같습니다. 

모분산을 추정하는 과정은 정말 감사하게도 간단합니다. 어떻게 하는지 보자면 다음과 같습니다. 

(n1)s2σ2
이 통계량이 χ2(n1)를 따른다는 얘기는 이미 둘러본 바 있습니다. 아. 그랬나요? - 통계에 사용되는 확률 3형제에서... - 표본과 표본평균과의 차이의 제곱의 합으로부터 얘기했었죠. 정확하게 이야기 하자면, 

(xiˉx)2σ2가 χ2(n1)을 따른다고 했습니다. 분명히.

이것은 
(n1)s2χ2α/2,n1σ2(n1)s2χ21α/2,n1를 따른다고 할 수 있습니다. 음? 왜죠?

자, 정신을 잘 차리면 살 수 있습니다. 집중력을 발휘하여, 이것도 역시 평균 추정과 전혀 다를 바가 전혀 없습니다. 세 번째 여자친구와의 첫 데이트 법칙처럼 관측치가 upper bound는 관측치보다 커야 하고, lower bound는 관측치보다 작으면 됩니다.

χ²의 분포를 따른다고 했고, 95% 신뢰구간으로 추정한다고 하면, 어떤 관측치가 있다고 할 때 95% 신뢰구간의 상한값 χ2n1,97.5%는 관측치보다 커야 하고, χ2n1,2.5%는 관측치보다 작아야 합니다. 이걸 수식으로 나타내면 그림 안의 ⓵, ⓶이고요 다시 한번 정리하여
최종적으로 어렵게 쓰면 


(n1)s2χ2α/2,n1σ2(n1)s2χ21α/2,n1
이렇게 됩니다. 

자, 그럼 복잡하게 할 것 없이, 예를 들면 더 잘 이해되니까, 한번 해보시죠. 

78m, 85m, 82m, 79m, 77m 의 데이터가 있다고 합시다. 이때 모분산 σ2를 추정한다면 
1) 표본분산을 계산한다.  (계산의 편의로 반올림)
s2=10.7510.8

2) 위의 통계량을 계산하면, 
s2σ2×(n1)=10.8σ2×4=43.2σ2  

카이제곱분포의 95% 구간은 
0.4844~11.1433 이므로, (n-1자유도)

0.484443.2σ211.1433
부등식을 풀면 됩니다. 이걸 풀면 
3.877σ289.182

오, 이렇게 3.877~89.182의 구간에서 신뢰도 95%로 모분산을 추정 가능합니다. 

홋 뭐야 간단하죠? 

이전에 이야기 했던 "세 번째 여자 친구와의 첫 데이트처럼 법칙"은 추정을 할 때 늘 적용할 수 있으니, 절대로 잊으면 안 됩니다. 그 점만큼은 양보할 수 없다는 각오입니다. 먼 훗날 "하라는 대로 할 걸 그랬나 봐"라고 해봐야 그때는 "그러게 말이야"라고 말하는 것이 최선일 테니까요.

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -