본문 바로가기
왜 가우시안 분포가 이렇게도 많을까?

가우시안에 대한 이야기 계속.

그래도 자연현상의 많은 것들이 정규분포로 모델링 되는데, 그 이유는 중심극한정리와 Entropy엔트로피로 설명하는 경우가 있습니다. 자연현상이라는 것은 한가지 확률변수처럼 보이지만 실은 많은 확률변수의 합이 그 결과로 나오는 경우를 의미합니다. 

그러니까, 이건 정말 여러 가지 확률분포가 합쳐진 게 아니라 다른 어느 것도 영향을 끼치지 못하는 단독 확률변수다! 라고 생각된다면 가우시안으로 가정하면 안 됩니다.

여튼 많은 경우에 중심극한정리에 의해서 많은 확률변수의 합은 정규분포한다고 많이들 설명하고 있는데, 이런 설명을 듣고 있으면 그래도 불안한 감이 있습니다. 그냥 정규분포를 써도 되는 것인가.

왜 자연현상에 가우시안이 많은가를 설명할 때 이미 얘기했듯이 중심극한정리 외에 Entropy로 색다르게 접근하는 방법이 있습니다. Entropy란 무질서도를 의미하는데 - 머신러닝 다룰 때 다시 한번 자세히 다룰 생각이에요 - 모든 자연현상은 가만히 놔두면 무질서도가 최대(Entropy가 Maximum)가 되는 방향으로 움직입니다. 

일단 Entropy의 이해를 위하여, 간단하게 Entropy를 설명하면, 어떤 동전을 던질 때, 앞면과 뒷면이 나올 확률이  ½로 같을 때 (a), 앞면이 0.8, 뒷면이 0.2일 때 (b), 앞면이 1.0 뒷면이 0일 때 (c)를 예를 들면, 가장 무질서한 - 가장 예측이 불가능한 - 경우는 앞뒷면이 모두 ½ 일 때 가장 Entropy가 크다고 봅니다. 

이런 경우라면 Entropy는 (a) > (b) > (c) 라고 보면 됩니다. 특히 (c)의 경우에는 전혀 무질서하지 않죠. (100% 예측 가능합니다.)

그러니까, 어떤 확률분포가 있는데, μ와 σ²가 특정되는 경우에 무질서도가 가장 크게 하는 확률분포가 무엇인가로 접근하는 재미있는 - 사실 재미없어요 - 논리전개입니다. 이런걸 Maximum Entropy라고 하는데, 이걸 푸는 방법으로는 Lagrange multiplier 라그링지승수의 방법으로 주어진 조건하에서 최대값을 구하는 방법으로 확률분포를 구합니다. 자연현상의 경우에는 유한한 평균과 유한한 분산을 가진다는 제약조건을 이용하게 되는데, 이런 경우에 Maximum Entropy의 확률분포는 가우시안이 되고요, 지수분포, 포아송분포, 이항분포 모두 같은 형태로 유도되기도 합니다. 

그런 이유로, 자연현상은 Gaussian이 많이 나타난다는 것인데요, 확률에서는 현상을 Gaussian으로 많이 모델링해서 사용하고, 통계에서는 평균과 분산을 이용해서 문제를 분석하거나 해석하기 때문에 현상을 Gaussian으로 모델링해서 해석하는 것입니다. 

 라그랑주 승수법을 이용한 Maximum Entropy 방법은 괜히 직관적인 이해를 방해할 수 있긴 한데,

이 부분은 아래의 링크에 보면 모든 분포가 자세히 나와 있습니다만, 그중에 Gaussian만 본다면 다음과 같습니다. - Entropy에 관련된 내용이니까, 더 이상 굳이 이해할 필요는 없다고 생각하지만, 궁금증에 시달리는 분들을 위해서 조금 늘어놓자면 - Entropy의 정의는 다음과 같습니다. - Entropy란 무엇인가도 또 이야기할 예정이니까, 조금만 참아주세요. -

$$H(X)=-\int_{-\infty}^{\infty} f(x) \ln f(x) d x$$

여기에서 X를 확률분포 p(x)로 놓으면 다음과 같이 다시 쓸 수 있겠습니다. 

$$H(p(x)) \triangleq \int_{x} p(x) \cdot \ln \left[\cfrac{1}{p(x)}\right] d x$$

라고 하자면 
finite μ, σ²를 가지고 있는 경우에만 고려하고, 이 문제를 해결하기 위해서, 라그랑주 승수법을 이용하기 위해서 제약사항을 고려해 보면 다음과 같이 세가지가 나옵니다.

$$ \int_{-\infty}^{\infty} p(x) x = 1 $$

$$ \int_{-\infty}^{\infty} xp(x) dx = \mu $$

$$ \int_{-\infty}^{\infty} (x-\mu)^2 p(x) dx = \sigma^2 $$

여기에 Jacobian을 정의하면 다음과 같습니다. 

$$  \begin{aligned} J(p) \triangleq-\int_{-\infty}^{\infty} p(x) \ln p(x) d x+\lambda_{0}\left(\int_{-\infty}^{\infty} p(x) d x-1\right) \\ +\lambda_{1}\left(\int_{-\infty}^{\infty} x p(x) d x-\mu\right)+\lambda_{2}\left(\int_{-\infty}^{\infty} x^{2} p(x) d x-\sigma^{2}\right) \end{aligned} $$

그리고 $p(x)$ 편미분은 다음과 같습니다. 

$$ \begin{aligned} \frac{\partial}{\partial p(x) d x} J(p) =-\ln p(x)-1+\lambda_{0}+\lambda_{1}( x-\mu)^2 \\ \frac{\partial^{2}}{\partial p(x)^{2} d x} J(p) =-\frac{1}{p(x)} \end{aligned} $$

이걸 풀면,  

$p(x)=e^{\left(\lambda_{0}-1\right)+\lambda_{1} x+\lambda_{2} x^{2}}=\cfrac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\dfrac{(x-\mu)^{2}}{2 \sigma^{2}}} = f(x; \mu, \sigma)$

입니다. 이걸 제약식에 넣어서 연립 방정식을 풀면, Finite μ, σ²를 가진 확률분포의 Maximum Entropy는 Gaussian입니다. 

Entropy만 따로 다시 써보면

$$H(x) = \cfrac{1}{2}(1+log(2\sigma^2 \pi))$$

가 가우시안의 Entropy가 되겠습니다. 

음. 괜히 읽었다면 그냥 잊어도 됩니다. 지금은. 이런 것까지 하는 것은 매우 곤란해요. 그냥 세상은 불확실성이 가장 큰 방향으로 움직이게 되고, 그 불확설성이 가장 큰 확률분포의 모양새가 가우시안이구나 정도로 이해해 주시면 이건 이것대로 의미가 있었구나 하고 생각할 수 있겠습니다. 그리고 라그랑주에 대해서 조금 더 알고 싶다면, "기계가 학습? 한다는 건" 섹션의 "라그랑주 승수법을 이해하기 어렵나요? 제약사항에 대한 최대 최소값에 적용" 편을, 엔트로피에 대해 조금 더 알고 싶다면 "Information과 Entropy - 답변을 받으면 그게 정보다. "편을 읽어보시면 조금 더 이해에 도움이 될 거라 생각합니다. 

이거 여러 가지 확률분포에 대한 라그랑주 승수를 이용한 Maximum Entropy 확률분포에 대한 유도는 다음 URL을 확인해 주세요. 

www.dsprelated.com/freebooks/sasp/Maximum_Entropy_Property_Gaussian.html

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -