본문 바로가기
확률의 시작, Binomial Distribution(이항분포)의 감상

확률분포들의 소개. 아 이거야말로 아, 잠깐만, 뭐라고 소개해야 하지. 라고 잠시 고민하게 만드는 일입니다. 이렇게 저렇게 얼렁뚱땅 소개하고 넘어가고 싶지만, 나중에 큰 화를 불러일으킬 것 같아서, 하지 않고서는 안될 중요한 순서이기도 한 것 같아 고민이죠. 

확률분포는 Binomial과 Gaussian(정규분포)만 알면 반은 가는 거다.는 이상하지만 굳건한 신념을 가지고 있습니다. 일단 Binomial은 이항분포라고 부르는데요. Binomial을 다루려면 제일 먼저 바로 전회에서  자세히 들여다보았던 조합이라고 불리는 Combination을 잘 알아야 합니다. Combination은 n개중에 r를 뽑는 방법이라고 설명이 많이 되어 있는데, 이걸 공식으로 이해하면, 이런 문제를 만났을 때 아 이거 어쩌지 하고 해결하지 못하는 사태가 왕왕 발생합니다. 

Binomial을 만나게 되면 제일 먼저 만나게 되는 그 공식. 

"응?"
"뭔가 좀 복잡해 보이는데."
" 그렇다면, 문제를 놓고 생각해 봅시다. "
"주사위 3번 던질 때 6의 눈이 2번 나올 확률은?"

자, 이런 문제라면 일단 6의 눈이 나올 사건은 S, 확률은 $\cfrac{1}{6}$이고요, 6의 눈이 아닐 사건은 F, 확률은 $\cfrac{5}{6}$ 라고 할 수 있잖아요? 그렇다면 3번 던질 때 6의 눈이 2번 나올 확률을 따지면 $\left(\cfrac{1}{6}\right)^2\cfrac{5}{6}$이 될텐데, 이런 경우가 몇가지가 나올지를 따져보면 되겠군요! 아항.

자, 이미 한번 해 보았지만, 복습한다는 기분으로 3자리에 S와 F을 늘어놓는데 S가 2번 나오는 경우를 세어 보는 시간. 일단 눈으로 보면 조금 더 이해하기 쉽다.고 생각합니다.

3자리니까, S를 S1, S2로 구분 지어서 한번 해볼까요.

간단하게 늘어놓아 봐요. 

S1 S2 F
S2 S1 F
S1 F S2
S2 F S1
F S1 S2
F S2 S1

이런 경우가 나오겠네요. 
하지만 S1과 S2는 같은 것이니까 결국, 3가지 경우의 수가 나오겠습니다. 그떄의 확률은

S S F 의 확률도 → $\left(\cfrac{1}{6}\right)^2\cfrac{5}{6}=\left(\cfrac{1}{6}\right)^2\cfrac{5}{6}$ 
S F S 의 확률도 → $\cfrac{1}{6}\cfrac{5}{6}\cfrac{1}{6}=\left(\cfrac{1}{6}\right)^2\cfrac{5}{6}$
F S S 의 확률도 → $\cfrac{5}{6}\left(\cfrac{1}{6}\right)^2=\left(\cfrac{1}{6}\right)^2\cfrac{5}{6}$ 

의 경우와 같습니다. 이 3가지 경우의 수가 $_3C_2$ 로 구한 결과와 같은 이야기 입니다. 결국 $$ \frac{3!}{2!×1!}$$ 과 같습니다. - 그리고, 발생할 수 있는 조합의 수는 3개를 순서를 고려해서 뽑은 후에 순서에 상관없는 S가 2개, 순서에 상관없는 F가 또 1개니까 각각의 팩토리얼로 나눠서 순서를 없애주면 됩니다. 이제 좀 익숙해 졌으면 좋으련만 - 이 경우의 수를 결국 S를 성공, F를 실패라고 다시 치환해서 얘기한다면 3번 시도해서 2번만 성공하는 경우의 수입니다.  

자, 이걸 그림으로 본다면, 주사위 3번 던질 때 6의 눈이 2번 나올 확률을 구한다면 아래와 같이 표현할 수 있겠습니다. O를 성공, X를 실패라고 했을 때 (O의 순서는 고려하지 않습니다.) 총 3가지 경우의 수가 있을 수 있고, 그때의 각각의 확률을 늘어 놓고 살펴 본다면 다음과 같겠습니다. 

그림으로 봐도 $ \frac{1}{6}^2 × \frac{5}{6} $이 모두 공통이고 이 것이 $ _3C_2 $ 개 만큼 있군요. 
그러니까 결국에는 주사위를 3번 던질 떄, 6의 눈이 2번 나올 확률은 
$$ _3C_2 × \frac{1}{6}^2 × \frac{5}{6} $$ 이라고 보시면 됩니다. 

그럼, 2번 성공에 2번 실패면요? 
$$ _4C_2 × \frac{1}{6}^2  × \frac{5}{6}^2 $$

뭔가 감이 슬슬 옵니다. 
이런 Binomial Distribution을 일반화하면 아래처럼 됩니다. 

이런 식으로 정리될 수 있겠습니다. 저에게는 매번 정이 안 가는 표현입니다만.

실패확률과 성공확률을 곱해서 나오는 $ p^x(1-p)^{(1-x)} $ 가 흔히 얘기하는 독립시행, 다른 말로는 베르누이 시행의 확률을 의미합니다. 매 시행마다 서로 독립이라는 뜻이죠. 

그러면 서로 독립이라는 뜻은 또 뭔가요. 한마디로 서로 영향을 주지 않는다는 의미입니다. 이 말은 매우 중요한데, 우리가 따지는 대부분의 확률과 통계는 서로 독립인 경우이고, 이 경우는 결국 관측치의 합이 극한의 값으로 치달았을 때 Gaussian으로 가정할 수 있다는 이야기 입니다요.

확률분포는 히스토그램이라고 생각하면 뭔가 생각할 때 조금 더 편하게 상상할 수 있습니다. 

확률분포를 공부할 때, 각 분포마다 평균과 분산을 구해서 알려주는데, 저는 그것이 너무 부담스러웠던 기억이 있어서. 어떤 특정 분포의 평균과 분산은 필요할 때 마다 얘기하려고 하는데, 괜찮겠지요?

확률분포를 설명할 때, pmf, pdf, cdf 등의 개념을 사용하는데, pmf는 Discrete(이산) 분포인 경우에 확률을 표시하는 방법이고, pdf는 Continuous(연속) 분포인 경우에 확률 (엄밀히 말하면 정확한 확률은 아니고 확률의 밀도)를 표시하는 방법입니다. 그리고 cdf는 그런 확률값을 누적으로 해서 표시하는 방법인데, cdf를 미분하면 pdf, pmf가 된다는 정도는 미리 알고 있는 사실이라고 가정하려고 합니다.  

사실 Binomial 분포는 Bernoulli 분포의 합이라는 것을 알고 있으면 좋겠습니다. 
Bernoulli 분포는 $Bern(x;p) = p^x (1-p)^{1-x}$ 로 표시하고 x는 1 또는 0 값을 가질 수 있습니다. 만일 $Y \sim Bern(y;p) $이고,  $x=\sum_{i=1}^{N} y_i$ 라고 한다면 $X \sim Bin(x; N,p)$로 표시할 수 있습니다. 반대로, 더하기 전의 관점으로 이야기 하면 Bernoulli는 Binomial의 N=1번 시행과 같겠습니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -