통계분석에 사용 되는 검정 3형제

"통계분석에 사용되는 확률 분포와 검정 3형제 - t, χ², F 분포(1)"편에서 3가지 확률분포를 열심히 들여다보았었는데, 이것을 검정의 관점에서 조금 더 자세하게 들여다보는 기회.

확률분포를 볼 때는 아직 검정이라는 것이 무엇인지 몰랐으니까, 분포자체의 특징만 이야기했거든요, 이제는 검정을 더 이야기할 수 있어서 조금은 마음이 편해졌습니다. 일단, 검정은 데이터 분석에서 열심히 분석한 결과를 통계적으로 뒷받침하는 근거니까 엄청 중요하죠. 후후. 이제까지 살펴본 것은 검정이 무엇인지를 경험했고, t분포를 활용한 차이 검정을 예로 들어 실제로 검정을 어떻게 하는 것인지도 살펴보았기 때문에 검정이 무엇이며 어떻게 하는지도 대략은 알게 되었다고 생각합니다. 결국 검정이란 말이죠 Hypothesis를 어떻게 설정하고, p value가 무엇인지를 알면 된다는 것인데, 더 간단하게 정리하면, 특정 통계량이 어떤 확률분포를 따를 때 - 표본평균의 분포가 t분포를 따를 때 - 설정한 Hypothesis에 대해서 p value가 어떻게 되는지를 보았다고 보면 무난하게 Summary하지 않았나 생각합니다.

그렇다면, "특정 통계량이 어떤 확률분포를 따를 때"라는 부분이 꽤나 중요한 부분인데, 그 어떤 확률분포라는 것이 t분포, χ²분포, F분포라는 점을 알면 조금 정리해서 이해할 수 있지 않을까 생각합니다.

그러면, 조금이라도 친숙한 t분포부터 다시 한번 정리하면 어떨까 합니다. - 이제까지 자세히 본 것이니까 중요한 것만 -

t분포는
표본 평균의 분포가 따르는 분포이고,
모분산이 아닌, 표본분산이 분포의 Parameter이고,
표본수가 작을 때는 표본정규분포보다 양쪽 꼬리가 더 두껍습니다.
표본크기가 커질 수록 정규분포에 가까워집니다.

헷 그렇죠?
그러니까, 집단 간 차이를 볼 때는 대푯값인 표본평균의 차이를 여전히 t분포로 보고 그 차이가 0일 경우를 Null Hypothesis로 설정하여 검정하게 됩니다.

χ² 카이제곱 분포는
Gaussian의 제곱의 합이 카이제곱분포를 따른다고 "통계분석에 사용되는 확률 분포 3형제 - t, χ², F분포 (1)"편에서 이미 살펴보았습니다만 -
그러니까 표본분산의 분포와 관련이 있습니다. 표본분산의 검정을 할 때 사용됩니다. - 하지만 막상 검정을 할 때는 범주형(Category) 기대 빈도에 관련하여 검정을 하는 경우가 대부분입니다. 느낌적으로 뭔가의 차이의 제곱이기 때문에 χ²카이제곱분포가 확실하게 관련 있을 것이라는 느낌적인 느낌이 있습니다.

그때의 통계량이 말이죠.

$\begin{equation}
\chi^2 = \sum_{i=1}^{n} \cfrac{(O_i-E_i)^2}{E_i}
\begin{cases}
       \begin{aligned}[]
       O&:Observations\\
       E&:Expections
       \end{aligned}
\end{cases}
\end{equation}$ 이니까요.

그렇긴 한데, 이 경우, 데이터는 누적 카운트인데, Continuous Gaussian일리가 없지 않은가?, 정확하게 왜 통계량이 왜 카이제곱 분포를 따르는지가 의문으로 남을 텐데요. 사실 이 통계량은 정확하게 말하면 이미 살펴보았던 비율에 관한 검정입니다. 비율은 Binomial에서부터 출발하고, Binomial은 Gaussian으로 근사가 가능하니까, 당연히 그 비율은 Gaussian으로 근사가 됩니다.라는 컨셉에서부터 시작하면 조금 이해하기 좋은데요, - 연속형 정규분포 변수에서의 카이제곱은 Gaussian의 제곱의 합이라는 점

$$\sum\limits_{i=1}^{n} Z_{i}^{2}=\sum\limits_{i=1}^{n}\left[\cfrac{X_{i}-\mu}{\sigma}\right]^{2}=\chi^{2}$$

뭐 이런 거였는데 말이죠 - 일반적인 n개의 카테고리는 너무 복잡한 수식 과정을 거쳐야 해서, 그냥 이해한다는 의미로 딱 2개 Binomial Case로 그 내용을 본 후에 이게 일반화되면 어, 그렇다~ 정도로 보면 좋겠습니다. 지루할 것 같으면, 넘어가는 것을 추천합니다. 결론적으로 알아야 할 것은 진짜로 χ²카이제곱분포를 따르네? 정도입니다.

일단 두 개의 범주에 대해서 잠시 살펴보고 가겠습니다. - n개의 범주에 대한 증명은 그냥 그렇다 정도로 생각하면 좋겠습니다. -  그러면, 어째서 이런 데이터는 χ² 분포를 이용해서 검정하는가가 궁금증의 핵심이 되겠습니다.

z² (표준정규분포 제곱)의 합은 자유도가 n-1인 χ² 분포(카이제곱 분포)를 따른다는 것을 다시 한번 간단하게 확인해 본다면 (O는 관측, E는 기대치입니다) 다음과 같이 풀어볼 수 있겠습니다.

$\sum\limits_{i=1}^{n} \cfrac{\left(O_{i}-E_{i}\right)^{2}}{E_{i}} \sim \chi^{2}_{(n-1)}$ 을 잘 Σ를 풀어서 생각해 본다면

$ \cfrac{(x_0-\mu)^2}{\sigma^2} + \cfrac{(x_1-\mu)^2}{\sigma^2} + \cdots \cfrac{(x_n-\mu)^2}{\sigma^2} \sim \chi^2_{(n-1)} $의 폼과 직관적으로 비슷한 것은 볼 수 있습니다. 하지만, 꼭 같지는 않군요.

가장 간단한 경우인 2개의 집단이 있는 경우를 보면 다음과 같은데 말이죠.

$
\chi^{2}=\cfrac{\left(O_{0}-E_{0}\right)^{2}}{E_{0}}+\cfrac{\left(O_{1}-E_{1}\right)^{2}}{E_{1}} \sim \chi^{2}_{(1)}
$

그러면 O₀ O₁는 x₀ x₁의 꼴과, E₀ E₁은 μ의 꼴과 비슷합니다만, σ는 E₀ E₁과 다르니까, 비슷하긴 하지만 꼭 같지는 않습니다. 꼭 같으려면 σ와 E가 같아야 하겠는데 말이죠.

그러니까, 그냥 무턱대고 외우기에는 뭔가 석연치 않은 부분이 있는데 간단하게 집단이 두 개인 경우를 유도해 보면 재미있을 거라 생각... 흠..

일단, χ²는 z²의 합의 느낌이라는 것을 기억하고, Binomial의 Gaussian근사를 상정하고, $\mu = np, \sigma^2=npq$를 이용해서 관측치 O를 z score로 다시 한번 써보면,

$z=\cfrac{O_{0}-n p_{0}}{\sqrt{n p_{0}\left(1-p_{0}\right)}} \sim N(0,1)$ 이고요,
$ z^{2}=\cfrac{\left(O_{0}-n p_{0}\right)^{2}}{n p_{0}\left(1-p_{0}\right)} \sim \chi^{2}_{(1)}$

이 되겠습니다.

그러면 결국 z²가 $\cfrac{\left(O_{0}-E_{0}\right)^{2}}{E_{0}}+\cfrac{\left(O_{1}-E_{1}\right)^{2}}{E_{1}}$ 요런 꼴이 되면 되겠습니다. 기대되지요?라곤 하지만 지루할 수 있으니까 궁금한 사람만 봐도 되지 않을까 합니다.

------ 여기에서부터는 궁금한 사람만 보는 절취선 ------

자, 일단 Binomial 케이스이니까, $p_0 + p_1 = 1,\, E_0 + E_1 = n,\, O_0+O_1=n, \, np_0=E_0, np_1=E_1$을 최대한 이용해야 합니다. 자, 가봅시다.

$Z^2 = \cfrac{\left(O_{0}-n p_{0}\right)^{2}}{n p_{0}\left(1-p_{0}\right)} = \cfrac{\left(O_{0}-E_{0}\right)^{2}}{n p_{0} p_{1}} = \cfrac{n\left(O_{0}-E_{0}\right)^{2}}{n p_{0} n p_{1}} = \cfrac{n\left(O_{0}-E_{0}\right)^{2}}{E_{0} E_{1}} \\ = \cfrac{n\left(O_{0}-E_{0}\right)^{2}}{E_{0}\left(n-E_{0}\right)} = \left(O_{0}-E_{0}\right)^{2}\left(\cfrac{1}{E_{0}}+\cfrac{1}{n-E_{0}}\right) \\ = \cfrac{\left(O_{0}-E_{0}\right)^{2}}{E_{0}} + \cfrac{\left((n-O_{0})-(n-E_{0})\right)^{2}}{n-E_{0}} = \cfrac{\left(O_{0}-E_{0}\right)^{2}}{E_{0}} + \cfrac{\left(O_{1}-E_{1}\right)^{2}}{n-E_{0}} \\= \cfrac{\left(O_{0}-E_{0}\right)^{2}}{E_{0}} + \cfrac{\left(O_{1}-E_{1}\right)^{2}}{E_{1}} = \chi^{2}$

------ 여기까지는 궁금한 사람만 보는 절취선 끝 ------

엇, 그렇군요. 어찌어찌 유도하다 보면 이렇게 두 개 O₁, O₂ 두 term의 합이 되는군요. 캬. 그러니까 일반화된 $\sum\limits_{i=1}^{n} \cfrac{\left(O_{i}-E_{i}\right)^{2}}{E_{i}} \sim \chi^{2}_{(n-1)}$ 는 대~충 이까짓 거 $\sum Z^2$의 형태라는 정도로 기억해 두면 좋겠습니다.

엣 헴.

휴. 그러니까, 이런 식으로 비율에 대해서 계산한 것도 분산의 형태니까 χ²을 따르는 것 아닐까? 하는 것에 대한 답이 될 수 있겠습니다. 이에 대한 실제 검정은 다시 다루도록 하시죠.

마지막으로 F분포는
$\frac{\chi^2}{\chi^2}$형태의 확률변수가 따르는 분포인데, 이때는 Continuous 형태의 데이터에서 분산과 분산의 비가 따르는 분포입니다. 그렇긴 한데, 여기에서는 유도 같은 지루한 것들 보다는, 분산의 비를 실제적으로 어디에 이용해 먹을 것이냐에 포커스를 맞추어 생각해 보는 것이 좋겠습니다.

F 비는 곧 만나게 될 ANOVA라는 분산분석에서 이용하는데, ANOVA에서 끝낼 것이 아니라, 다른 곳에서도 이용되니까, 조금 더 Intuition을 가지고 있으면 훨씬 이해하기 좋겠습니다. F비에 사용되는 비율은 이렇게 정의들 합니다.

설명 가능한 변량의 평균은 뭐고, 설명하지 못하는 변량의 평균은 무엇이란 말인가요. 뭘 설명하지 못하는 거죠. 이것 참 정말 난감하기 짝이 없습니다.

이런 식의 정의이기 때문에 F비를 이해하기 매우 어렵습니다.

하지만, 이걸 다음과 같이 다르게 표현하면 조금 이해하기가 낫습니다.

➊ : 실험을 위해 인위적으로 선택한 데이터의 분산
➋ : 표본에 의한 분산 (관리할 수 없음)

실험을 위해 인위적으로 우리가 뭔가를 한다는 것은 모델을 만든다던지, 그룹을 나눈다던지 하는 일을 하게 됩니다. 그러니까,

➊ : 우리가 만든 모델에 의해 예측 가능한 분산
➋ : 우리가 예측 불가능한 데이터에 의한 분산

우리가 모델을 만들었기 때문에 원래의 상태와 모델과의 차이을 측정할 필요가 있고, 우리가 모델을 만들었기 때문에 만든 모델과 데이터의 차이를 측정할 필요가 있게 됩니다. 그러니까,

➊ : 우리가 뭔가를 한 것에 대한 분산
➋ : 우리가 뭔가를 한 것 이외의 분산

자, 그러면 뭔가를 하고 난 후에 결과라는 것은 뭔가 효과를 기대하고 했을 테니까, 원래 상태와 효과와의 차이를 말하는 것이고, 그러니까,

➊ : 결과에 대한 효과의 분산
➋ : 결과에 대한 오차의 분산

제일 쉽게 아주 축약해서 쓴다면 다음과 같이 이럴 수 있겠네요.

➊ : 효과의 분산
➋ : 오차의 분산

그러니까, 전반적으로는 분자는 뭔가를 함으로써 나오는 원래의 상태로부터의 차이, 분모는 뭔가를 했지만 여전히 있는 차이. 이렇게 되면 얼마나 효과가 있는지 볼 수 있겠죠.

아, 이거 애매하고 복잡한 줄 알았는데, 꽤 간단한 이야기로군요.

그러니까, 집단 차이 분석의 ANOVA F검정의 F비의 경우에는

➊ : 집단을 나눴기 때문에 생기는 집단끼리의 차이(분산)의 평균
➋ : 집단을 나눴지만 각 집단안에 있는 차이(분산)의 평균

라고 하면 좀 말이 되는가요.

그러면 이런 말 하기 좀 이르지만, 회귀의 경우 F분석은

➊ : 회귀선을 찾아냈으니까, 회귀선과 평균선과의 차이(분산)의 평균
➋ : 회귀선을 찾아냈지만, 여전히 있는 관측치와 회귀선과의 차이(분산)의 평균

이 정도로 해석이 되겠군요.

그러면 전체적으로는 뭔가를 한 후 (결과에 대한 변화의 차이 / 결과와 관측치의 차이)니까, 노이즈에 비해 얼마나 효과 차이가 나는지를 보는 것이겠군요.

또는 모집단을 추정할 때 틀릴 수 있는 오차에 비해, 얼마나 확실하게 차이가 큰지를 계산한다는 것만 이해하면 조금은 마음이 편해지기도 합니다.

아, 이거 별거 아니로군요. F검정이라는 거. 음. 이거 복잡하고, 너무 어려운데요.라고 생각하지 않았으면 합니다. 어쨌든 Intuition을 이렇게 갖고 있으면 편리합니다.

하여튼 검정에 대해 길게 이야기 하긴 했는데, 나중에 편해지자면 다음의 3가지만 기억하시자고요!

t검정은 표본의 평균을 비교할 때, 그러니까 2개 그룹 간 차이를 비교할 때 쓸 수 있어요.
χ²검정은 분산 느낌이잖아요? 그러니까 원래 어떤 비율이어야 되는데 그게 기대 비율에 비해 퍼진 정도를 이용해서 비교하는 데 사용됩니다. 쉽게 이야기 하면 카이제곱 통계량은 기댓값으로부터 관찰값까지의 차이(거리)를 나타내는 값이라고 보면 분산의 느낌 그대로죠?
F검정은 분산의 비잖아요? 그러니까 통제 가능한 분산과 통제 불가능한 분산의 비를 이용해서 통제 불가능한 것에 비해 통제 가능한 것이 차이가 나는가를 볼 때는 F검정을 써요. 이거 뭐 일타강사처럼 이야기 한 번 해 봤는데, 괜찮은가요

저작자표시 비영리 변경금지

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -

티스토리툴바