본문 바로가기
통계분석에 사용 되는 확률 분포 3형제 - t, χ², F분포 (1)

서양 테이블 매너는 왜 그렇게 해야 하는지 모를 잡다한 것들이 많습니다. 누가 정했는지 알 수 없는 그런 이상한 매너들이 있는데, 이것을 기억하고 외우는 것도 꽤나 고역입니다. 그것과 마찬가지로 통계 분석에 자주 사용되는 확률 분포도 누가 정했는지 알 수 없는 네이밍이 계속 나오는데, 이것도 애칭처럼 귀엽다면 훨씬 좋을텐데, 그렇지 않아서 기억하기 꽤나 어렵습니다. 

그런 식의 통계분석에 사용되는 확률 분포 3형제가 있습니다. t분포, χ²분포, F-분포 3형제인데요. 통계분석을 안해 본 입장에서는 아직까지는 많이 어려운 이야기 일 수 있습니다. 지금은 눈의 촛점을 조금 풀고, 음음 그렇구만. 정도로 읽어주시고 나중에 다시 한번 읽으러 돌아와 주셔도 괜찮지 않을까 합니다.  

그런 의미로 이제부터 늘어놓는 이야기는 통계를 조금이라도 알고 있는 사람들에게는 도움이 될 만한 이야기이니, 참고해 주세요.

통계분석이라는 것이 어디에 집착을 하느냐면 평균, 분산에 엄청난 집착을 합니다. 통계가 어디에 집착하는지만 잘 알아도 일단 먹고 들어갈 수 있습니다. 정말 보통 집착이 아닙니다. 

적당하게 무엇과 관계있는지를 먼저 얘기해 보면, t분포는 표본평균에 관련되어 있고, χ²분포는 표본분산에, F분포는 두개의 집단의 분산의 비를 통해서 집단간 평균을 비교하는데 그 평균이 얼마나 퍼져있는지 - 마치 분산처럼 - 에 관련된 분포입니다. 이거 꽤나 고민해서 쓴 말이긴 한데 정말 어려운 말 같긴 합니다. 실제로 어떻게 하는지 직접 보면 조금 낫긴 할거라 생각합니다만.

표본으로부터 알아낸 통계량들이 어떤 분포를 가지는가 하는 얘기라고 보면 됩니다. 

t분포는 왜 이런 이름이 붙었는가에 대해 얘기를 하자면, 윌리엄 고셋이 이 분포를 알릴 때, 자신의 필명 student를 사용했고, 피셔가 이 분포를 student t분포라고 부르는 데에서부터 시작했다고 하는데, 조금 더 로맨틱한 이유로 그렇게 불렸다면 훨씬 더 좋았을 텐데 하는 생각을 합니다-만 χ²나, F를 보면 t분포는 그나마 좀 나은 편이 아닌가 생각합니다. -

t분포는 생긴 것처럼 T자의 모양새처럼 가운데를 중심으로 양쪽으로 펼쳐져 있고, 평균을 0으로 두고 좌우가 동일한 분포입니다. 
아무래도 평균이다 보니까, 평균을 추정하거나, 두 집단의 평균이 같은지 확인하고 싶을 때 검정 통계량으로 사용합니다. 

다시 정리해서 얘기한다면 σ²를 모를 때 표본 분산 s²를 대신해서 사용하여 μ 를 추정하고, 평균 검정에 사용합니다. 

t분포를 이용한 모집단의 평균을 구간 추정할 때와 평균의 차이를 검정하는 것은 나중에 검정 쪽에서 볼테니 너무 급하게 생각하진 말아 주세요.

그 다음으로, χ² 분포로 말할 것 같으면 '표준정규분포 확률변수의 제곱합'으로 정의할 수 있습니다.
χ² (chi squared, 카이제곱)에 대해서 가장 기본적인 사용법은  σ²를 추정할 때 사용하는데, 실제로는 적합도 검정, 독립성검정(동질성 검정)등에도 사용합니다. 표본 크기 n일 때, s²(표본분산)의 표본분포가 (n-1) 자유도를 갖는 카이제곱 분포를 따르기 때문에, σ²를 추정할 때는 표본분산에서 다룰 것인데 자유도 (n-1)을 이용해서 추정합니다. - 갑자기 자유도를 이야기해서 미안합니다만, 자유도에 관한 이야기는 통계를 시작할 때 본격적으로 이야기 할 예정이니, 지금은 그냥 그렇구나 정도로 넘어가 주면 좋겠습니다 - 

χ²분포는 자유도에 따라 모양 달라집니다. 자유도 1에서, 확률변수 $X=Z^2$가 카이제곱 분포를 따르게 되고, 일반화하면 $X = Z_1 ^2 + Z_2 ^2 + ... + Z_n ^2$입니다. 여기에서 Z는 Gaussian 확률변수입니다. 

어디선가 들은 얘기인데, 보통 우리가 X를 Random Variable(확률변수)로 놓는데, 그중에서도 X가 Gaussian 확률변수일 때, X의 제곱의 합이 따르는 분포를 X의 꾸부렁탱이의 제곱이라는 의미에서 χ²라고 표현한다는 이야기가 있는데, 이게 사실인지는 저도 모릅니다. 어쨌든 분포의 이름들은 왜 전부 다 로맨틱하지 못한지 좀 그렇습니다. 

χ²분포의 모양새는 자유도가 낮으면 0주변에 분포가 몰려있고, 자유도가 높아질수록 Gaussian에 가까워집니다. 

χ²의 정의는 당연히 Gaussian 확률변수의 합으로 정의되고, 
$$\sum\limits_{i=1}^{n} Z_{i}^{2}=\sum\limits_{i=1}^{n}\left[\cfrac{X_{i}-\mu}{\sigma}\right]^{2}=\chi^{2}$$

이때 표본분산과 모분산의 비율을 $ \cfrac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}_{(n-1)}$  이런식으로 정의할 수 있는데, 표본분산이 모분산과 비슷하다면 χ²분포는 자유도와 같게 됩니다. 

그냥 말로 하니까, 좀 감이 오지 않아요. 어째서 이런 일이 벌어지는지 확인해 보겠습니다. 

원래, 정규화된 Gaussian은 다음과 같이 표현하죠.

$$
\cfrac{(X-\mu)}{\sigma}
$$

그러면 이런 것들의 제곱된 것들이 여러 개 합쳐지면 어떻게 될까요? 
$$
\cfrac{(x_1-\mu)^2}{\sigma^2} + \cfrac{(x_2-\mu)^2}{\sigma^2} + \cdots \cfrac{(x_n-\mu)^2}{\sigma^2}
$$

요런 모양새가 되는데, 이게 χ²분포를 따릅니다. 

그런데 우리는 당연히 모평균μ을 모릅니다. 아... 모평균μ을 알면 이런 거 안 해도 될 텐데. - 라고 해봤자, 그러면 통계를 할 필요가 없겠군요 -

그러니까 표본평균을 이용한 뭔가를 하면 좋겠다는 게 그 아이디어입니다. 아래의 식은 σ를 제외하고는 우리가 구할 수 있는 표본에 관련된 값입니다. 
$$
\cfrac{(x_1-\bar{x})^2}{\sigma^2} +\cfrac{(x_2-\bar{x})^2}{\sigma^2} + \cdots  + \cfrac{(x_n-\bar{x})^2}{\sigma^2}
$$

요거는 우리가 구할 수 있고, 아는 정보니까 어떻게든 이용하고 싶습니다. 그리고 또 당연히 이 값은 χ² 분포를 따릅니다. 

표본의 분산은 

$s^2 = \cfrac{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ 이니까 묘하게 닮았지요. 

엇, 
$(n-1)s^2 = \sum\limits_{i=1}^{n}(x_i-\bar{x}^2) $니까, 양변을 $\sigma^2$로 나누면, 
결국  
$$\cfrac{s^2}{\sigma^2}\times (n-1) $$

요렇게 해 주면 요거는 표본의 평균과 표본의 분산을 이용해서, 표본분산과 모분산의 비로 나타낼 수 있고, χ²를 따르겠군요. 

보통 다음과 같이 표기하는데, $$ \cfrac{(n-1)s^2}{\sigma^2} $$ 이렇게 쓰면 제곱의 합/ 분산의 제곱 형태라는 점만 잘 기억하면 좋겠고, 표준정규분포의 합이 됩니다. 

이 통계량이 $\chi^2_{(n-1)}$를 따릅니다. 오. 뭘 따르는지 지금은 좀 머리가 아프고, 추정이나 검정에서 더 자세하게 다뤄보는 것도 좋을 것 같습니다. 

지금까지 이야기를 잠시 전체적으로 정리하면,
모든 이야기는 Normal Distribution부터 시작이 되는데...
$X \sim \cfrac{X-\mu}{\sigma} \sim N(0,1) \sim Z$분포

이때, $\sum X^2 = \sum Z^2\sim \chi^2_{n-1}$ 가 되고, '표본의 수(n)-1'이 χ² 분포의 자유도가 됩니다. 

그러니까, χ²분포는 정규분포를 따르는 변수의 분산을 분석할 때 사용합니다. 

또 그리고, T분포의 정체에 대해서 다시 돌아보자면, 꽤나 흥미롭습니다. 
$ T= \cfrac{Z}{\sqrt{\chi^2_{(dof)}}} \sim  t_{(dof)}  $ 관계가 있어서 (dof는 자유도입니다) $T=\cfrac{X-\mu}{s}$의 형태니까, t분포는 Normal Distribution을 따르는 변수와 χ²를 따르는 변수의 비율의 형태로서, 모분산을 모르는 경우에 표본분산을 이용해서 분석할 때 사용합니다. 

마지막으로 F-분포에 대해서 말하자면, $\cfrac{\sigma_1^2}{\sigma_2^2}$를 구할 때 사용하는데, χ² 분포를 따르는 두 확률 변수의 비에 사용됩니다. 정확하게 얘기하자면 분산 추정 치의 비가 정확하겠네요. 결론부터 말하니까 이게 어디에 쓸 수 있는거지? 하는 생각이 드는데 χ²분포를 따르는 두 확률분포에 대한 두 확률 분포의 비율이니까, 분산의 비율을 비교한다는 느낌이죠. F-분포는 분산비 검정, 분산 분석, 회귀 분석 등에 사용이 됩니다. 

F분포는 분자, 분모가 모두 제곱 합으로 표현되는 검정 통계량은 보통 F-분포를 따른다고 보면 되는데, 보통 통계에서 사용되는 제곱의 합은 χ²분포의 비율의 형태로써, 서로 다른 χ²분포의 비율입니다. 

결국, $F=\cfrac{\chi^2_{(dof1)}}{\chi^2_{(dof2)}} \sim F(dof1, dof2)$의 형태가 되어, Normal Distribution을 따르는 두개의 데이터에 대한 분산의 비율에 대해 분석을 할 때 사용됩니다. 분산의 비율을 분석해서 어디에 쓸거냐 하면 F값이 1에 가까우면 두 데이터의 분산이 비슷한지 확인할 때 씁니다. F분포는 나중에 다루겠지만 신뢰구간과 가설검정에서 사용하는 분포이고, 다집단의 평균이 같은지도 확인할 수 있습니다. 그게 ANOVA입니다.

자유도와 표본분산에 대한 얘기가 갑자기 난무하게 되었는데, 이 이야기는 통계를 다루게 될 때 더 자세하게 다루겠습니다. 확률 분포를 먼저 소개하려다 보니, 친절하지 못하게 되어버렸습니다. 

참고로,  t distribution을 따르는 변수를 제곱하면 
$ T^2 =  {\cfrac{Z^2}{\chi^2}} = \cfrac{Z^2}{\chi^2_{(dof)}} \sim F(1,dof)$
가 되는 점을 알고 있으면 나중에 ANOVA를 다룰 때, t검정이 ANOVA의 특수형임을 이해하기 쉽습니다. 더 실무적으로 말하면 p value가 같고, 검정 통계량이 제곱의 관계입니다.

왜 n개의 표본의 제곱의 합인 χ²의 자유도는 n-1인가 하면 표본의 분산 분포이기 때문에 자유도는 n-1입니다.고 지금 먼저 말해 놓으면 자유도와 연결 될 때 조금 괜찮을 것 같습니다. 

혹시 귀무가설, 대립 가설에 익숙하지 않은 분이 있다면, 귀무가설, 대립 가설 얘기를 꺼내서 미안합니다만, 검정할 때 또다시 귀무가설, 대립 가설을 자세히 다룰 테니, 지금은 그냥 그렇구나! 정도로 읽고 넘어가면 좋겠습니다. 

t분포에 관련하여 평균의 차이를 분석할 때 귀무가설 H₀는 μ=0 이거나,μ₁=μ₂를 사용하고, 대립가설 H₁은 μ≠0이거나, μ₁≠μ₂인데,μ₁=μ₂의 경우에는 μ₁-μ₂=δ, δ=0 로 두면 한 개의 변수로 볼 수 있으니까 평균의 차이도 검정할 수 있습니다. 

χ²분포를 이용한 모분산 분석에 관련하여 귀무가설 H₀는 σ²=1이고, 대립 가설 H1은 σ²≠1입니다.

F분포를 이용한 ANOVA 분산 분석을 조금 얘기하자면 분산 분석의 귀무가설 H₀는 "μ₁=μ₂=μ₃"같은 것이고, 대립 가설H₁은 "H₀가 아니다"와 같은 것입니다. 구체적인 예를 들자면, H₀는 "약품 세 가지가 효과 차이가 없다"와 같은 것이고, H₁은 "효과 차이가 있다"와 같은 것입니다.

그리고 회귀분석에서는 귀무가설 H₀는 "기울기 β₁=0이다"같은 것이고, 대립 가설 H₁은 "기울기 β₁≠0이다"와 같은 것이고요. 구체적인 예를 들자면, H₀는 "약이 효과가 있다"이고, H₁은 "약이 효과가 없다"이고요, 회귀 분석에서 절편은 β₀라고 하고, 기울기는 β₁이라고 합니다.  

라고 열심히 썼지만, 이걸 외워서 한다는 것은 정말 고통스러운 일이니까, 귀무가설/ 대립가설을 다룰 때 왜 이렇게 되는지 이해될 수 있도록 이야기를 해 볼게요.

회귀분석에서 t분포는 회귀계수들을 검정하고, F분포는 회귀모형 자체의 검정을 위해서 사용하는데, 미리 이 얘기를 꺼내 놓으면 좋을 것 같아서 꺼내 놓습니다. 이러면 안 될 것 같은데, 미리 꺼내는 말이 너무 많아서 미안합니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -