본문 바로가기
모비율의 추정 - 시청률이라는 것을 추정해 보는 꿈같은 이야기

모비율을 추정한다는 것은 표본비율을 가지고 모비율을 추정한다는 것입니다.  세상에는 이런 것을 구할 일이 비일비재합니다. 투표도 그렇고, 의견의 비율을 구할 때도 그렇고, 시청률을 구할 때도 그렇고, 생각해 보면 잔뜩 있습니다. 

비율을 떠올리면 제일 먼저 p가 떠오르면 문제가 무척 쉬워집니다. p가 사실은 비율이니까요. p가 떠오르면, 또 하나 떠오르는 것이 있어야 하겠는데, 그것이 바로 이항분포가 아닌가 합니다. p와 (1-p)로 어떤 현상을 설명하는 것이니까요. 사실 처음에 Binomial이 Gaussian으로 근사되는 것을 보았기 망정이지, 그렇지 않았다면 지금 그것을 또 설명해야 하니까, 그건 그것대로 참 잘했구나 하는 안도의 마음이 생깁니다. 늘 어디에서 쓰일지 모르니까 다른 것은 못 챙기더라도 이항분포는 꼭 지참하십시오.

일단, 이항분포를 다시 한번 콕 꼬집어서 회상해 보면, x축은 p확률을 가진 x번 성공 횟수와 그 성공 횟수에 대한 확률을 그래프로 볼 수 있겠습니다. 왠지 이런 p를 보면 p와 1-p의 모양새이기 때문에 더더욱이 관계가 있을 수 있겠다, 그럴 수 있겠다는 생각이 듭니다. 

그런데, 이 지점에서 매우 중요하게 사용되는 approximation이 바로 Binomial이 Gaussian으로 근사할 수 있다는 점이 매우 중요합니다. 

$X \rightarrow P(X=x) \sim B(n, p)\approx N(np, np(1-p))$ 인데요. 

이때 주의할 점은 p는 우리가 구하고자 하는 모수이기 때문에 조사한 표본의 비율로 바꿀 수는 없고, 분산은 표본분산은 조사하고 관측한 비율로 대치할 수 있습니다. - n이 충분히 크기 때문에 표본분산은 모분산으로 대치할 수 있겠습니다요. 여기서는 - 

음 그러니까, 예를 들어본다면, 
600가구를 대상으로 현재 시청하는 채널을 조사해 봤더니, 99가구가 KBS를 보고 있었습니다. 그렇다면 진짜 KBS의 시청율을 95% 신뢰구간으로 추정한다면 어떻게 될까요. 사실 요즘은 OTT가 많아진 시절이기 때문에, 이런 조사가 무슨 의미가 있을까 하지만, 추정을 공부하는 데는 이것만 한 메타포가 없을 것 같습니다.  

자, 그러면 $\hat{p}=\cfrac{99}{600}$이라고 봐야겠군요. (99개 관측했고, n=600이고요. p에 모자를 씌운 것은 hat이라고 읽고 여기서는 관측했다는 뜻입니다.) 

지금 이순간, $B(n,p) \approx N(np, n\hat{p}\hat{q}) = N(600p, 600\cdot\frac{99}{600}\cdot\frac{501}{600}) $ 으로 다시 정리할 수 있습니다. 

결론부터 이야기 하자면
$600p \pm 1.96\cdot\sqrt{ 600\cdot\frac{99}{600}\cdot\frac{501}{600}}$ 사이를 95%구간으로 볼 수 있게 되는데, 그 계산과 사정은 이렇습니다. 

이제까지와 마찬가지로 이전에 기억하기로 약속했던 "세 번째 여자 친구와의 첫 데이트 법칙"처럼 좌우지간 upper bound와 lower bound는 우리가 측정한 99 값을 포함해야 합니다. 이걸 95% 신뢰구간으로 추정한다면,

$$
\begin{align*}
600p +z_{2.5\%}\sqrt{600\cdot\frac{99}{600}\cdot\frac{501}{600}}\geq 99,\\  600p -z_{2.5\%}\sqrt{600\cdot\frac{99}{600}\cdot\frac{501}{600}} \leq 99  \\
\end{align*}
\space \space z_{2.5\%} = 1.96
$$

그러므로 
p는 $99/600 \pm 1.96 \cfrac{\sqrt{600\cdot\frac{99}{600}\cdot\frac{501}{600}}}{600} $ 구간이 95% 신뢰구간이 됩니다. 계산해 보면, 
$0.165 \pm 0.0297$ 입니다. 

결국 이 범위가 모비율 추정에 대한 95% 신뢰구간이 됩니다. 

엄청 쉽습니다. 네. 

그렇긴 한데, 이렇게 쉬운 얘기를 모비율에 대하여 따로 공식처럼 정리하는 경우들이 있습니다. 그것을 정리해 보면 다음과 같습니다. 

원래는 $X \sim B(n,p)$ 였잖아요?
그런데, X를 n으로 나누어서 비율로 다시 표시하면, 

$$\hat{p} = \cfrac{X}{n}$$ 이렇게 됩니다. 

이제 와서 이야기이지만, X가 대문자인 이유는 확률변수이기 때문입니다. 그냥 허투루 X는 역시 대문자이지 하는 느낌으로 쓴 것이 아니라는 점을 기억하면 좋을 것이라 생각합니다. 특히 X가 Binomial 확률 분포를 따르지 않을까? 하는 생각을 아직까지 잊지 않고 있다면, 더할 나위 없겠습니다.   
표본 비율은 n개의 표본 크기 중에 X개를 차지한다고 보면, 

$$X \thicksim B(n, p) \approx N(np, n\hat{p}\hat{q}) $$ 이니까, 

$$ \hat{p} = \cfrac{X}{n} \sim N\left(p, \cfrac{\hat{p}\hat{q}}{n}\right) $$와 같습니다. 
왜냐하면,  
$$ E(\hat{p}) = E\left(\cfrac{X}{n}\right)  = \cfrac{np}{n} = p$$ 이고, 

$$ Var(\hat{p}) = Var\left(\cfrac{X}{n}\right) = \cfrac{n\hat{p}\hat{q}}{n^2} = \cfrac{\hat{p}\hat{q}}{n}$$ 이니까요. 

그러니까, $\hat{p}$는 $N(p, \cfrac{\hat{p}\hat{q}}{n})$을 따르고, 결국 정규화를 한다면, $\cfrac{\hat{p}-p}{\sqrt{\frac{\hat{p}\hat{q}}{n}}}$ 이 근사적으로 표준 정규분포를 따른다는 뭐 그런 시시껄렁한 얘기입니다. 그냥 앞에서 얘기한 것과 조금 다른 방식으로 표현했을 뿐입니다. 

결국,

$$
\begin{aligned}
&P\left(-z_{critical} \leq \frac{\hat{p}-p}{\sqrt{\frac{\hat{p}\hat{q} }{n}}} \leq z_{critical}\right) \Rightarrow  \\&P\left(\hat{p}-z_{critical} \sqrt{\frac{\hat{p}\hat{q}}{n}} \leq p \leq \hat{p}+z_{criticial} \sqrt{\frac{\hat{p}\hat{q}}{n}}\right)
\end{aligned}
$$
이런 얘기인데요, 

이 정리된 것을 먼저 했던 얘기와 맞춰서 다시 한번 풀어보면 

$\hat{p}=\cfrac{99}{600}, z_{critical}=1.96, \hat{q}=1-\cfrac{99}{600}=\cfrac{501}{600}$
이므로,

p는 $\cfrac{99}{600} \pm 1.96 \times \sqrt{\cfrac{ {\frac{99}{600}\times\frac{501}{600}}}{600}}$ 사이에 있다고 보면 되겠습니다. 

그러므로 $0.165 \pm 0.0297$ 이 95% 신뢰구간이다. 하고 결론 맺을 수 있겠습니다. 어, 앞에서 한 것과 똑 같군요. 그러니까 몹시 완전히 같은 얘기입니다. 

그러니까, 모비율이라고 해서 특별히 다르다고 볼 이유가 전혀 없고요, 그냥 Binomial의 Gaussian근사를 이용한 문제일 뿐입니다. 이때 굳이 모비율에 관련해서 표시하고 싶다면 Binomial Random Variable X를 표본수 n으로 나누기만 하면 된답니다. 후후.

한 가지 더 예를 든다면 피검사를 했더니 당뇨 수치가 220 이상이면 당뇨라고 판정한다고 했을 때 60명을 검사해서 23명이 220 이상이었습니다. 그렇다면 전체 모집단의 당뇨 수치 이상자의 비율을 95% 신뢰구간으로 추정한다면 $0.2603 \leq p \leq 0.5063$입니다. 한번 계산해 보세요. 후후

평균과 비율의 구간 추정을 공식처럼 보여주면 정말 비슷하고나 생각이 들 것 같습니다. 평균의 구간 추정은  $\mu \pm z_{critical}\times \cfrac{\sigma}{\sqrt{n}} $ 이고요, 비율의 구간추정은 $p \pm z_{critical} \times \sqrt{\cfrac{pq}{n}}$ 입니다. 보니까 어때요. 비슷하죠? 똑같네?라고 해 주시고, 그러니까 편한 방식으로 생각만 하면 만사 OK입니다. 추정을 통해 가장 많이 사용하는 예이니까, 잘 알고 있으면 "음 음 그렇단 말이지"를 할 수 있습니다. 

 

 

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -