신뢰도, 신뢰구간을 이용한 추정이야기의 시작

이제까지 의식의 흐름에 따라 표본 분포, 표본 분산, 자유도로 이야기가 빠져버렸는데, 이제는 추정을 해봐야 하지 않을까 합니다.

그런 의미에서 통계 추정의 가장 간단한 예를 한번 해볼까 합니다. 주어진 신뢰도로 표본들이 어디에 있을지 추정하는 문제입니다.

간단하게 예를 하나 들어보시죠.

예) μ=200, σ=1 인 Gaussian 분포의 모집단이 있다고 할 때, 무작위로 표본을 뽑으면 관측될 표본의 95%가 어느 구간에 있을지 예측해 봅시다.

어떤 느낌인가요. Gaussian에서 95%의 데이터가 들어가는 구간은 μ로부터 -1.96σ ~ +1.96σ 로서 1.96은 매우 의미있는 숫자입니다. 이미 Gaussian 분포를 이야기할 때, critical value를 이야기했었는데, 기억할지 모르겠군요. - 나중에 표준오차를 얘기할 때 임계값이라는 용어로 또 설명할 테니까, 기억해 두면 매우 매우 유용한 숫자니까, 기억해 두는 것이 신상에 좋겠습니다. - 보통 이 1.96은 한쪽 구역에서 2.5%를 의미하니까, 보통 $z_{2.5\%}$라고 표현합니다.(2.5%가 양쪽으로 있으니까, 합치면 신뢰도 95%를 의미합니다.)

당연히 - 이것이 당연하다고 느껴진다면 이제 본격적으로 신뢰구간을 잘 사용할 준비가 완료되었다고 자신감을 가져주세요 - 200-1.96•1 ~ 200+1.96•1 사이에 95%의 표본이 관측될 것입니다. (σ=1 이니까요). 그렇죠? 훗 너무나 당연한 이야기를 해서 조금은 미안합니다.

참고로 99%일때는 임계값 $z_{0.5\%}$는 2.58입니다. 임계값을 일반형으로 표시할 때는 $z_{critical}$로 표현하니, 신뢰도에 따라 그때 그때의 값을 잘 쓰면 되겠습니다.

추정이라는 것을 해 보기위해 너무나 당연한 이야기를 한번 해 봤습니다.

흠.

뭔가 더 심오한 이야기를 기대했다면 이해해 주세요. 이 이야기를 시작으로 이제 통계로의 여행이 시작되니까요.
두근.

저작자표시 비영리 변경금지

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -

티스토리툴바