본문 바로가기
표본분포의 씁쓸함

표본 분포라는 용어를 처음 맞닥뜨리게 되면, 당연히 표본 데이터의 분포라고 생각하게 됩니다. 그것은 너무나 자연스러운 해석이고, 그래야 한다고 생각합니다만. 

문제는 표본 분포라는 용어는 실제로는 우리가 추출한 표본의 분포가 아니라는 사실입니다. 충격. 
이런 식의 용어들이 통계를 접할 때 지적 호기심에 상처를 주는 용어라고 생각합니다만, 왜 이렇게 부르는지를 알게 되면 그도 그런가. 하는 생각이 들기도 합니다만 그래도 이건 좀 심한 것 아닌가 합니다. 

일단, 추출된 표본의 특성을 나타내는 통계량이 있고, 이 추출된 표본은 모집단에서 추출될 수 있는 표본 중의 하나일 뿐입니다. 표본을 많이 추출하다 보면 추출된 표본의 개수(표본의 개수라함은 표본의 크기가 아니라 n개 만큼 표본이 몇개?라는 뜻입니다.)만큼 통계량이 존재하게 되는데, 이런 통계량의 분포를 표본 분포라고 정의합니다. 잘 곱씹어 보면 통계량 자체를 확률변수로 보고, 그 분포를 따지겠다는 말과 같습니다. 

그러면 통계량에는 무엇이 있는가 하면, 표본의 평균과 표준편차, 표본비율 등이 있는데, 표본의 평균의 분포를 보통 표본의 분포라고 부릅니다. 아니, 그럼 표본 평균의 분포라고 부르면 얼마나 좋아요. 또는  표본 통계량 중 평균의 분포. 이게 훨씬 이해하기 좋을 텐데 말이죠. 통계 용어 관리청이 있어서 이 부분을 땅땅땅 정리해 준다면 더할 나위 없이 좋을 텐데요. - 이때 표본은 서로 독립이고 동일 분포입니다 -

표준오차라는 말도 있는데, 표본(통계량)분포의 표준편차를 말하는데, 예를 들면, 표본 평균의 평균끼리의 표준편차를 표준오차라고 부릅니다. 왜 그렇게 부르냐면 1개의 표본에서 계산한 표본 표준편차와 구분하기 위해서가 가장 큰 이유이고요, 실제로도 실제 모평균과 $\bar{X}$ 와의 차이를 제곱한 후 기댓값을 계산하게 되는데 실제 평균과의 표준오차라고 부릅니다. 그러니까 실은 표본 통계량 분포의 표준편차를 표준오차라고 부른다고 보면 틀림없습니다. 

방금 언급했듯이 표본평균, 표본 분산, 표본 분산의 비율이 대표적인데, 이에 대한 확률분포는 t분포 (표본 평균), χ²분포(표본 분산), F분포(표본 분산의 비)입니다. 이런 확률분포를 이용해서 검정이라는 것을 하게 되는데, 조금만 기다려주세요. 

일단, 표본 평균의 분포를 살펴보면,  표본평균의 분포는 어떤 분포를 따르는지 알고 계시겠죠. 왜냐하면 중심 극한 정리이니까요. Gaussian을 따르고요, 분산은 ${\left( \dfrac{\sigma}{\sqrt{n}} \right)} ^2$입니다. 이 분산의 제곱근이 표준오차입니다. 이런 경우에 t분포를 이용하게 된다는 그런 이야기입니다. - 표본크기가 커지면 z분포를 활용할 수도 있습니다. 그게 그 유명한 n≥30 뭐 그런 조건입죠 -


사실 솔직하게 고백하자면, 이런 그림 때문에 더 헷갈리게 하는 것 아닐까 생각합니다. 왜 모집단을 같이 그려서 이렇게 헷갈리게 하는지 좀 그렇습니다.

평균 말고 나머지 통계량에 관련한 표본분포는 추정과 검정을 하면서 더 자세히 들여다보면 좋을 것 같은데, 표본 분포가 나왔을 때는 어찌 되었건 표본의 통계량의 분포라는 것을 잘 기억해 둔다면 헷갈리지 않을 수 있으니까, 그것만은 꼭 기억해 두세요. - 보통은 표본 통계량의 분포라는 것은 표본 평균의 분포를 말한다는 점도 알고 있으면 편리합니다 -

혹시 표본(평균)분포가 계산되는 과정을 애니메이션으로 보고 싶다면 http://onlinestatbook.com/stat_sim/sampling_dist/index.html 이곳에 들어가서 왼쪽 상단에 Begin을 누르면 자세히 볼 수 있습니다. 저는 이런 걸 눌러보는 걸 꽤 좋아하는데, 이해하기도 쉽고, 기억할 수 있게 되어서 그렇습니다. 마치 원숭이가 지레를 누르듯이 계속 누르고 있으면 잠이 와요. 쿨 

표본이라는 것을 생각해 보면, 20개의 전체집합이 있다고 치고, 이중 5개를 뽑아서 표본을 만든다면 나올 수 있는 가능한 표본은 $_{20} C_5$=  15,504가지입니다. 엄청나지요? 이 15,504가지 표본의 통계량 - 예를 들어 평균들 - 의 분포만으로도 엄청난 크기군요. 중심극한정리에서 실제로 5개의 모집단으로 부터 표집하여 표본의 통계량을 보는 경우를 마지막에 늘어놓았으니, 그때는 도움이 될 거에요. 

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -