본문 바로가기
그래서, 적당한 표본의 크기는요?

표본오차에서 다룬 필요한 표본의 크기에 대한 더 자세하고 아주 짧은 이야기.

그러면 우리가 원하는 신뢰도와 오차범위에서 모수를 추정할 때 적당한 표본의 수는 어떻게 결정할지 조금 궁금해졌습니다. 

"아무래도 많이 하면 좋지 않을까 하는데."
"많으면 얼마나?"

정말 애매하군요. 애당초 통계는 모집단중 표본을 통해서 모집단을 추정한다고 했는데, 정작 표본의 크기는 따진 적이 없다는 것을 이제야 눈치채다니. 조금은 의식했어야 하지 않았나 합니다.라고 하기에는 이미 비율을 따질 때 좀 봤군요. 

여하튼 표본의 크기가 필요할 때는 크게 두 가지 정도의 경우가 있겠는데, 평균을 추정할 때, 그리고, 비율을 추정할 때가 있습니다. 평균을 추정할 때의 표본수 선택은 조금 간단한 이야기인데, 먼저 이야기하자면, 다음과 같이 정리할 수 있겠습니다. 요. 

$ \left| \bar{X} - \mu \right| < z_{critical} \cfrac{\sigma}{\sqrt{n}}$ 이것은 당연히 기억이 나시겠지요?  그러니까, 표본오차는 B라는 notation을 사용해서, 
$ B = z_{critical}\cfrac{\sigma}{\sqrt{n}}$ 라고 표현한다면, 
$ n = \left( \cfrac{z_{critical} \cdot \sigma}{B} \right)^2$ 라고 할 수 있겠습니다. 이헿. 이 이야기는 원하는 모표준편차와 신뢰수준을 정하면 몇 개의 표본을 구해야 하는지가 나오는 이야기라고나 할까요?  

예를 들어, 볼트를 생산을 해야되는데 초품에서 몇 개의 표본을 봐야 실제 평균을 추정을 잘할 수 있을까라는 문제가 있다고 하면 (σ=5, 95%신뢰수준에서의 표본오차 4인 경우라면) 몇 개의 표본을 봐야 할까?라는 문제가 있을 수 있겠군요. 이럴 때, $$ n = \left( \cfrac{z_{critical} \cdot \sigma}{B} \right)^2 = \left( \cfrac{1.96 \cdot 5}{4} \right)^2 = 6.0025$$ 이니까, 7개를 보면 적당하겠다. 정도로 판단하는 이야기입니다. 7개는 왠지 작은 숫자라서 뭔가 예시를 잘못 든 것 같지만. 여하튼 이런 이야기입니다. 어, 그런데 σ를 어떻게 아나요?라는 의문이 뭉개 뭉개 피어오르는데 - 당연하겠지만요- 모분산은 당연히 모르니까, 볼트의 제조 스펙을 σ로 둔다던가, 과거의 데이터에 의존하거나, 사전조사에 의한 표본의 표준편차(s)를 이용하거나, 대략적으로 알려진 데이터의 Range를 4σ로 둔다던지 (σ=R/4) 해서 정합니다. 조금은 주먹구구식처럼 보이지만, 그런대로 그런대로 잘 먹히는 방법들이라고 알려져 있습니다. 

비율을 추정할 때의 표본수에 대해서 이전에 Derive 했던 내용이지만, 다시 한번 복기하면서 표본수에 대한 탐험을 하겠습니다. 

보통 지지율이나, 득표율 같은 것을 예측할 때는 지지냐 아니냐, 득표냐 아니냐 등으로 Binomial로 가정할 수 있으니까, 확률변수 X(확률변수 X는 성공/실패를 사건이라고 했을 때, 성공의 회수를 값으로 가지니까요)를 Binomial로부터 두고 이걸 접근한다면, 

Binomial의 표준편차, 즉 $\sqrt{np(1-p)}$로 다룰 수 있으니까, 표본오차 e는 

$$
\begin{align*}
e =& \cfrac{1.96\cdot\sqrt{np(1-p)}}{n} \\ =& \cfrac{1.96\cdot\sqrt{p(1-p)}}{\sqrt{n}} \ \\ → 
n \geq & \cfrac{1.96^2 \cdot p(1-p)}{e^2}
\end{align*}
$$ 입니다. 
이때, 가장 최악의 경우가 p=½인 경우이므로 (긍정 반, 부정 반, Entropy가 가장 큰 경우) 이 값을 넣으면 

$n \geq \cfrac{1.96^2}{4\cdot e^2}$로 최소 표본의 수를 구하면 가장 보수적으로 안전합니다. 

이걸 일반적인 폼으로 다시 쓰면,
$n \geq \cfrac{z_{critical}^2}{4\cdot e^2}$ 이라고 쓸 수 있습니다. 여기까지가 오차범위를 다룰 때 이미 보았던 내용이긴 합니다만.

그런데, 여기저기 표본수 계산기를 보면, 이런 접근과 다르게 조금 더 자세한 것처럼 보이는 공식들이 등장하게 되는데, 그것은 어떻게 Derive된 것일까 생각해 봅시다. 가만히 생각해 보면 출구조사를 하거나, 지지율을 조사할 때 같은 사람에게 2번 물어보는 경우가 거의 - 없다고 단정하기는 조금 어렵군요. 화장실에 갔다가 다시 나와서 처음 답하는 것 마냥 답하는 사람도 있지 않을까 합니다만, 그런 일은 없다 치고 - 없으니까, 제대로 모델링하기 위해서 이 경우는 비복원 추출이라고 보아야 합니다. 사실 모집단이 엄청 크면 복원추출, 비복원 추출이 의미가 매우 작아지지만, 모집단이 작은 경우에는 비복원 추출이 의미를 가지게되니, 이 경우를 고려해서 표본크기를 정하는 것도 좋겠습니다. 
비복원 추출의 경우에 분산의 추정량은 다음과 같이 표현합니다.  - 사실 이게 초기하 분포라는 점이 기억난다면, 많이 도움이 될 거라 생각합니다. -

$\sigma^2 = \cfrac{N-n}{N-1}np(1-p)$이고요, 이걸 그대로 위의 식에 대입하면  그러니까, 95% 신뢰도일 때 

$e(\%p) = 1.96  \cdot \cfrac{\sqrt{\cfrac{N-n}{N-1}np(1-p)}}{n} $ 로 표현할 수 있습니다. 

이걸 n에 대해서 다시 정리하면

$n \geq \cfrac{\cfrac{1.96^{2} \times p(1-p)}{e^{2}}}{\cfrac{N-1}{N}+\left(\cfrac{1.96^2 \times p(1-p)}{e^{2} N}\right)} \approx  \cfrac{\cfrac{1.96^{2} \times p(1-p)}{e^{2}}}{1+\left(\cfrac{1.96^2 \times p(1-p)}{e^{2} N}\right)}$ 가 됩니다. 헥헥 

이전과 같이 p=½로 최악의 경우를 상정하면, 

$n \geq \cfrac{\cfrac{1.96^{2}}{4\cdot e^{2}}}{1+\left(\cfrac{1.96^2 }{4\cdot e^{2} N}\right)}$  으로 정리할 수 있습니다. 잘 보면 모집단의 크기가 들어 있는 점을 놓치기 십상인데, 놓치지 않았으면 합니다. 

이걸 1.96을 각 신뢰도에 대하여 $z_{critical}$로, p를 최악의 경우로 상정하지 않고 일반화를 하게 되면 


$n \geq \cfrac{\cfrac{z_{critical}^{2} \times p(1-p)}{e^{2}}}{1+\left(\cfrac{z_{critical}^{2} \times p(1-p)}{e^{2} N}\right)}$

이렇게 계산할 수 있게 됩니다. 

비복원추출일 경우 오차범위를 다루기 위해서는 모집단의 크기를 알아야 합니다만, 모집단의 크기가 표본에 비해 매우 큰 경우에는 복원추출과 비복원추출의 차이가 거의 없게 되기 때문에 모집단의 크기를 아는 것의 의미가 없게 되니, 처음에 유도했던 표본의 크기구하기가 위력을 발휘합니다. 

미리 말을 꺼냈습니다만, 이런 비복원 추출 표본수를 계산하기 복잡하니까, 이걸 계산해주는 곳이 있습니다. 대한민국의 경우에는 
https://www.nownsurvey.com/calculator/
Survey Money도 제공하고요.
https://ko.surveymonkey.com/mp/sample-size-calculator/

아래 표는 $n \geq \cfrac{1.96^2}{4\cdot e^2}$ 즉, $ e = \pm 1.96  \sqrt{\cfrac{1}{4n}}$ 를 이용해서 계산한 오차범위인데, 이걸 보면 보통 3.1 오차범위가 나오니까 대한민국에서의 통계는 보통 1000명에게 했을 것 같은 느낌적인 느낌이 뙇 오게 되는군요. 

표본크기를 정하기 위해서 모집단이 정해져 있을 때, 모집단 크기와 신뢰도만 가지고 rule of thumb으로 표본크기를 정하는 방법도 있는데, 이때 사용하는 것이 Slovin's formula라는 것이 있습니다. 
$n = \cfrac{N}{1+Ne^2}$를 사용해서 대략의 표본의 크기를 구해서 추정을 시작하는데, 이때 e는 (1-신뢰도)입니다. 그러니까, 95% 신뢰도라면 e=1-0.95=0.05가 됩니다. 

통계가 가끔 이게 뭐람 하는 결론에 이르는 경우가 많은데, 뭐 가끔은 이게 뭐람 하는 결론도 흥미롭다고 생각하는 것도 좋다고 생각합니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -