평균과 기대값에 관하여

정보이론을 다룰까 하는데 그전에 조금 명확하게 짚고 넘어가야 하는 것이 있습니다. 그것은 평균과 기대값에 대한 것인데, 언제든 다룰 수 있겠지만, 이런 실용적인 사용처가 있을 때 다루면 훨씬 이해에 도움이 되겠다는 뭐 그런 겁니다. 사실 평균은 정해진 값들에 대한 평균인데 비하여 기대값은 확률이라는 개념이 묻었을 때 평균은 어떻게 될 것인가에 대한 것이거든요. 실상 계산을 하거나 할 때는 그닥 다르지 않다는 것만 이해하면 별것 아님을 알 수 있을 것입니다.

우선 평균은 잘 아시다시피 N개의 데이터가 있을 때, $$\cfrac{\sum\limits^{N}_{i} x_i}{N}$$ 으로 계산하거든요? 기호를 이용했지만 N개의 데이터를 모두 합한 후에 N으로 나눴다는 것뿐입니다.

사실 기대값은 평균과 같은 건데, 평균을 낼 때 확률표현을 이용한다는 것뿐입니다.

$$\sum\limits^{N}_{i}x_i p(x_i)$$

이런 식인데요, 이 두 개가 전혀 달라 보이지만, 사실은 같은 개념이라는 걸 예를 들어서 이해해 보시죠.

데이터 : 1, 1, 2, 3, 4, 5, 5
8개의 데이터가 있습니다. 이것의 평균은 3 입니다.

$$ \cfrac{1+1+2+3+4+5+5}{7} = 3 $$

틀림없이 그렇죠?

그럼 이걸 각 숫자가 전체에서 차지하는 비율로 계산해 보겠습니다.

1이 2개, 2가 1개, 3이 1개, 4가 1개, 5가 2개군요. 전체는 7개입니다. 그러니까,

$$ \cfrac{(1\times2)+2+3+4+(5\times2)}{7} = 3 $$

$$1\times \cfrac{2}{7} + 2 \times \cfrac{1}{7} + 3 \times \cfrac{1}{7} + 4 \times \cfrac{1}{7} + 5 \times \cfrac{2}{7}$$

이런 식으로 계산할 수 있겠습니다. 이걸 일반화해서 쓰면

$$x_1 \times \cfrac{n_1}{N} + x_2 \times \cfrac{n_2}{N} + x_3 \times \cfrac{n_3}{N} \cdots + x_N \times \cfrac{n_N}{N} $$

이런 식으로 고쳐쓸 수 있겠군요. 그러면 이걸 확률 표현으로 바꾸면,

$$x_1 \times p_1 + x_2 \times p_2 + x_3 \times p_3 \cdots + x_N \times p_N $$

아하, 한방에 뭉뚱그려서!

$$ \sum\limits^{N}_{i} x_i p_i$$

이렇게 쓸 수 있겠는데, 이 p를 조금 더 x에 관계된 수식으로 고쳐 쓰면

$$ \sum\limits^{N}_{i} x_i p(x_i)$$

이런 식이 될 수 있겠습니다. 이것이 Expectation, 즉 기대값입니다. 와하하.....

그런 의미였군요.

그런데, 여기에서 멈추면 재미가 없습니다. x를 변형했을 때에는 어떤 결과가 있을까요? 예를 들면

$$G = X^2$$

라고 한다면 이때의 기대값은 어떤 식이 될지 생각해 보세요.

$$ \sum\limits_{i}^{N} x_i^2 p(x_i)$$

가 됩니다. 왜냐하면 어차피 x를 제곱한 값은 달라지지만 그에 대한 확률은 변함이 없기 때문입니다. 하하.

그래서 일반적으로

$$ Y = g(X) $$
라면,

그때의 기대값은
$$\sum\limits_{i}^{N} g(x_i) p(x_i) $$

가 됩니다.

요런 경우 $E_{X \sim P}[G(X)]$ 라고도 표현하는데, X는 P분포를 따르고 그때의 G(X)의 기대값이라는 뜻인데, 이 표현 방식을 잘 알아두면 GAN에서도 써먹고, Entropy에서 $H(x) = E_{X \sim P}[I(x)]$ 이런 식으로 정보량의 평균을 표현하기도 합니다. 이 표현 꼭 다시 만날 거니까 익숙해지면 좋겠습니다.

이걸 잘 기억해 두고, 바로 이어서 정보와 Entropy라는 걸 들여다보도록 합시다.

연속형 확률변수의 경우에는 Σ대신에 적분∫을 사용하면 되는데, 이런 걸 여기서 설명하다 보면 정말로 이해해야 하는 걸 못하게 될 수 있으니까, 그냥 넘어가려고 하는데, 이게 어렵게 느껴지지는 않겠죠?

"이 데이터를 보고 드는 생각은요? 데이터 디스렉시아"편에서 다음과 같은 이야기를 한 적이 있는데 기억하고 있다면 정말 존경하지 않을 수 없겠습니다.

"평균에 대한 여러 가지 용어가 있는데. Expectation(기대값), Mean(평균), Average(평균)이 있는데, 이것들의 차이에 관하여 얘기해 보자면 Expectation은 모집단에서의 평균을 말하고, Mean은 (평균에는 조화평균등 정말 여러 가지 평균 방법이 있는데) 보통 우리가 사용하는 표본의 합을 n으로 나누는 것을 Arithmatic Mean이라고 부릅니다만. 보통 Arithmatic을 빼고 그냥 Mean이라고 말합니다. Average는 Mean 중에서 Arithmetic Mean을 특별해서 지정해서 말합니다. 그러니까 일상생활에서는 Mean과 Average가 같다고 여겨지는 것이 보통이지만, 차이를 알고나서부터는 뭔가 될 대로 되라는 식은 아니구나 할 수 있습니다."
그러니까 여기에 한 가지 더 추가되는 꼴인데, 바로 기대값이 되겠군요. 이제는 평균에 대해서라면 조금은 배를 내밀고 흠흠해도 될 지경이라고 생각합니다.

저작자표시 비영리 변경금지

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -

티스토리툴바