본문 바로가기
많이 들어는 본 확률 분포들에 관한 밥먹으면서 읽는 이야기

사실상 우리가 확률을 배우다 보면 Gaussian 이외에 여러 가지 확률 분포를 알게 되는데, 참으로 흥미로운 것들이 꽤 있습니다. 하지만 이런 확률분포들을 이해하고 계속 기억하는 것은 지겨울 만큼 질질 끄는 장기전입니다. 아니 이게 잘 안 외워지거든요. 게으름 피우지 않고, 의지만으로 이런 분포를 머릿속에 유지한다는 것은 제가 보기에는 거의 불가능하다고 생각합니다만, 이런 걸 -잊지도 않고,- 잘도 기억하고 있는 말리지 못할 사람들도 있더라고요. 

분포들도 서로 연관이 있어서 하나를 알면 줄줄이 소시지처럼 엮이기는 것 같은데, 한번 들여다보면 좋을 것 같습니다.만 관심이 없으면 그냥 넘어가도 좋을 것 같습니다. 이걸 모른다고 경찰관이 갑자기 불심검문하지는 않을 테니까요.

첫 번째로 Geometric(기하분포)라는 분포를 알아보도록 해 보겠습니다. 

우선 모양새를 한번 볼까요.

Geometric은 성공확률 p의 독립시행(베르누이시행)을 하는데 처음 성공할 때까지의 시행 횟수를 확률변수 X라고 했을 때를 X에 대한 성공 확률의 분포를 얘기하는데요. X번째에 성공할 확률입니다. 그러니까, Binomial보다 훨씬 쉬운 경우입니다. 성공 횟수가 아니라 마지막에 한 번만 성공하면 되니까요. 

$$ P(X=x) =  q^{x-1} p $$ 

입니다. 

예를 들어 $P(X=4)$의 확률은 "실패-실패-실패-성공" 인 경우의 확률입니다. 그냥 마지막을 "성공"으로 박고 나머지는 실패라고 생각하면 되는데 공식으로 굳이 쓸 필요가 있어나 생각합니다. 어쨌든, 

예를 들면, 소개팅을 하기 시작한 독자가 애프터에 성공할 확률이 5%라고 가정한다면, X 번째 소개받은 이성과 사귀게 될 확률이 기하분포라고 보면 이해가 쉽게 될 것 같은 기분입니다. 

어쨌거나, 중요한 3번째에 소개팅에 성공할 확률은 

$ P(X=3) = 0.05 \times 0.95^{3-1} = 0.045125$ 입니다. 

어, 성공할 확률이 5%인 경우에는 3번째에 성공할 확률은 4.5%정도 되는군요? 왠지 서글픈데요. 확률은 확률일 뿐이니까. 힘내셨으면 해요. 아니 같이 힘내도록 해요. 

자 그런데, 여기에서 X를 단위시간의 배수라고 생각한다면 X→0일 때 x시간 동안 뭔가 발생하지 않을 확률과 같다고 볼 수 있겠습니다. (결국, 마지막에 성공하긴 하지만, X→0 이 조건이니까요)

Geometric 분포는 Pascal 분포라고도 불리는데요. 아니 도대체 기하(Geometric)라는 말은 누가 붙인 겁니까. 정말 너무들 하시네요. 이거 참. 기억하는 데 곤란하기 짝이 없습니다. 기하의 의미는 $ pq^{x-1}$이 $a_{n}=ar^{{n-1}} $ 이런 형태의 등비수열이랑 비슷하게 생겨서 그런 이름이 붙었다는데 정말 저로서는 정말 확률•통계와는 친해질 수 없는 것인가 하는 생각이 들게 합니다.  다시 말해 등비수열은 기하(幾何) 평균을 가지는 수열(數列)이라고도 불리는데 한마디로 순전히 이 기하라는 단어가 Geometry를 번역했기 때문에 그렇다는 어이없는 이유가 있습니다. 하지만 조금 더 쉽게 본다면 기하급수적으로 늘어난다의 기하가 거기에서 왔다고 보면 훨씬 쉽게 생각이 날 것 같습니다. 물론 이 경우는 기하급수적으로 늘지 않고, 줄어들긴 하지만요. - 등비 분포가 더 쉽게 기억할 수 있는 것 아닌가 합니다. -

마지막 한 방 성공을 따지는. 그러고 보면 마지막 한 방을 노리는 기하 타이거즈들 이라고나 할까요? 조금은 기억이 될 것 같긴 합니다. 

그럼, 두 번째로 Negative Binomial Distribution(음이항분포)라는 것도 있는데 한번 보실 생각이 드나요?
성공 확률이 p인 베르누이 시행을 독립적으로 반복할 때, r개의 성공을 얻을 때까지 시행횟수를 확률변수 X로 정의한다면, 확률 밀도 함수는 다음과 같은 형태를 지니는데 이 분포를 음이항 분포라고 합니다. 

$ P(X=x) = f(x; r,p) = \dbinom{x-1}{r-1}p^r(1-p)^{x-r} $ 의 모양새입니다. 
이게 무슨 의미냐 하면, 맨 마지막 시도는 성공으로 빼면, 전체 시도에서 1번 빼고 성공도 1번 빼니까, $ \binom{x-1}{r-1}$ 이 되고, 성공은 r번, 실패는 x-r번으로 생각하면 됩니다요. 아 잠깐, 여기에서 $ f(x; r,p)$ 는 $f(x, r, p)$와 같은 말인데, 왜 semi-colon을 썼는가 하면 그냥 x와 r,p는 성질이 다르다는 의미에서 이렇게 표현한 것뿐입니다.- 보통 semi-colon 뒤에는 모수가 나옵니다 - 

그러니까, Negative Binomial에 관련된 것들은 이런 식입니다. 성공이 r회 나올 때 까지 시행할 때, 라는 질문으로 시작됩니다.
예를 들어 어떤 광고의 노출 후 클릭 성공률이 30%라고 해봅시다. 이 광고가 3번의 클릭 실패가 나오기까지 발생한 성공이 x번인 확률은? 어떻게 될까요? 

여기에서 클릭 실패의 횟수가 r이니까, r=3, p=0.7,이고 전체시도는 클릭 실패를 포함해서 x회+3회니까, 

$ f(x=x+3; 3, 0.7) = \dbinom{x+3-1}{3-1}0.7^3 0.3^{x}$ 입니다. 

또는 마지막에 실패 1회를 fix하고 나면 성공 x회, 실패 2회를 늘어놓는 이항분포랑 같으니까, $\dbinom{x+2}{2}0.7^2 0.3^{x} 0.7$ 도 같은 말입니다. 

이게 Geometric(기하)분포에 관계가 되는데, r=1인 경우에는 Geometric(기하)분포와 같아집니다. 별거 없잖아요? 네?

왜 Negative Binomial Distribution이라고 부르는가? 하면 이것이야말로 정말 아연실색할만한 이유로 Negative Binomial 분포라고 불립니다. 

음이항분포를 잘 쓰다듬어주면 
$ (-1)^x \dbinom{-r}{x} p^x (1-p)^r $ 의 형태로 바꿔쓸 수 있는데 앞에 -1이 붙어 있고, Binomial과 비슷하게 생겨서 Negative Binomial이라고 부른다고 하는데, 정말 저로서는 상상도 할 수 없는 이유입니다. 

좀 더 풀어서 쓰면,

앞서 기하 분포에서는 첫 번째 성공에 관심이 있다면, 음이항 분포에서는 r개 성공이 나왔을 때까지 시행 횟수에 관심이 있는 것입니다. 그러니까 Negative Binomial도 마지막이 항상 성공입니다. 

그러니까, 기하분포는 음이항분포의 특수한 경우라고 할 수 있습니다.
베르누이분포/이항분포가 n번 시행해서 x번 성공할 확률을 구하는 이산확률분포였다면,
기하분포/음이항분포는 r번 성공했을 때 x번 시행했을 확률을 구하는 이산확률분포입니다. 실험은 미리 정한 r 번의 성공이 나타날 때까지 계속한다는 의미입니다. 휴.

세 번째로 Poisson 분포에 대해서 알아봅시다. Poisson은 Binomial 분포의 극한 형이라고 보면 좋은데, n이 충분히 크고 p가 매우 작은 경우에 $n\cdot p = \lambda $라고 정의(Binomial 분포의 평균)하고 n → ∞ , $np>5$이면서 $nq>5$ 조건을 만족하던가, 또는 n이 충분히 크면서, 성공확률 p가 0.5에 근사하는 경우에 Gaussian으로 근사합니다만, 그렇지 않은 경우에는 Poisson을 따른다고 보시면 좋습니다. 쉽게 말하면 성공확률이 매우 낮을 때가 대부분입니다. 이런 경우에 다음과 같이 계산이 됩니다. 유도과정은 스리슬쩍.

$$ P(X=x) =\binom{n}{k}p^x (1-p)^{n-x} \approx   \dfrac{\lambda^x e^{-\lambda}}{x!} $$

그러니까 꽤 많은 시도를 하는 와중에 성공확률(발생확률)이 매우 작은 경우에 Poisson 분포를 따른다고 생각하면 조금 마음이 편해지고요. 도대체 Poisson은 언제 써먹느냐 하면 우리가 어떤 특정 시간 동안 발생하는 평균 발생률의 평균만 알면 그 평균을 $\lambda$로 놓고 어떤 시간 동안 성공횟수에 따른 확률을 알 수 있다는 의미입니다. x축은 성공횟수이고, y축은 성공횟수에 대한 확률입니다. 

예를 들면,
어떤 회사에 시간당 평균 30회의 전화가 걸려온다고 합니다. 5분 동안 7회의 전화가 걸려올 확률은? 이라는 문제를 만났을 땐 5분간 평균 2.5회인 Poisson 분포로, 7 회 걸려올 확률은 
$ P(X=7) = \dfrac{2.5^7 e^{-2.5}}{7!} $를 
계산기에 넣으면 간단한 과정을 거쳐 0.00994이다.라고 문제를 풀 수 있습니다. 

네 번째로는 Exponential 분포라는 것이 있습니다. 

이건 또 무슨 의미냐 하면, 방금 보셨듯이 어쨌든 우리가 특정 시간이라는 용어를 사용했는데 이 특정 시간을 단위시간이라고 바꿔서 얘기해 보도록 하겠습니다. 

이 단위시간에 비례해서 발생횟수도 비례하게 되는데요. 이때 단위시간에 비례해서 단위시간 t개의 구간에서의 평균 발생 건수는 당연히 $ \lambda \cdot t $ 가 될 것입니다. 

그러면 
$$ \dfrac{\lambda^x e^{-\lambda}}{x!} → \dfrac{(\lambda t)^x e^{-\lambda t}}{x!}$$

요런 식으로 Poisson을 변화시킬 수 있습니다. 이때! x=0인 경우는 단위시간 × t동안 한 번도 발생하지 않을 확률이 됩니다. 옿. 

$p(x=0) = \dfrac{(\lambda t)^0 e^{-\lambda t}}{0!} = e^{-\lambda t} \space$  t 단위시간 동안 아무것도 발생하지 않을 확률 

그러면, 뭔가 발생할 시간 확률변수 X라고 둔다면 X가 (단위시간 × t)개 보다 클 확률은  (즉, t시간 이후에 발생할 확률이 되겠습니다. )아래와 같이 표현할 수 있겠습니다. 왜냐하면, 단위시간×t 동안 발생하지 않았으니까요.

$$ P(X>t) = e^{-\lambda t}$$ 
그러면 이때! 시간 X 가 t보다 낮을 확률은, 즉 (t단위시간 이내의 확률은)
$$ P(0 \leq X\leq t) = 1- e^{-\lambda t} $$ (t이내에 발생할 확률) 가 되겠습니다. 

이 확률은 음 cdf이군요. 당연히 이걸 미분하면 pdf가 되겠습니다. 

결국, 
$$ P(X=t) = \lambda e ^{- \lambda t} $$
되시겠습니다.
두 사건의 시간 간격을 확률변수 X 로 정의하면 시간 간격에 따라 사건이 발생할 가능성을 의미합니다. 

이 의미는 어떤 사건이 단위시간 × t개에서 몇 번째 단위시간의 배수에 사건이 발생할 것인가에 대한 확률이라고 생각하면 됩니다. 
Exponential 분포의 예를 들어보면   
한 사무실에는 전화가 평균 10분에 5번 걸려온다고 했을 때. 한번 전화가 걸려온 후에 다음 전화가 걸려올 때까지 걸린 시간이  5분 이내일 확률은? 

이라는 문제를 만나게 되면 이 사무실에서 전화가 걸려온 때부터 다음 전화가 걸려올 때까지 걸린 시간을 분으로 측정하는 확률분포는 Exponential 분포를 따른다고 할 수 있습니다. 방금 보았던 Poisson과 같은 조건인데, 평균 1분에 0.5 대꼴로 걸려온다고 할 수 있겠죠. 그러면 
$ P(X=t) = 0.5e^{-0.5t}$ 로 pdf를 볼 수가 있겠군요. 

그러면 결국 
$P(X\leq5) = \int^{5}_{0} 0.5e^{-0.5t} dt  = 1- e^{-0.5\times 5} = 0.918 $ 입니다. 
그러니까 전화를 받은 후 5분 이내에 또 걸려올 확률은 약 92%정도 되는군요.

오, 재미있는 문제로군요. 사실 지수 분포는 네트워크 모델링이라던가, 버스가 도착할 확률 같은 걸 계산할 때 사용한답니다. 흥미롭죠. 

지수분포가 pdf로 보면 좀 이해하기 어려운데, 이렇게 보면 쉽게 볼 수 있는 것 같습니다. 

사실 모수가 λ 인 포아송 분포에서 연속적으로 발생하는 두 사건 사이의 interval(시간)을 확률변수 X로 했을 때, 이 확률변수 X는 지수분포를 보인다고 표현할 수 있고요. 이런 경우에 Poisson Process를 따른다고 정의합니다. 

사건이 서로 독립적일 때, 일정 시간동안 발생하는 사건의 횟수가 포아송 분포를 따른다면, 다음 사건이 일어날 때까지 "대기 시간"은 지수 분포를 따른다고 유식한 스타일로 얘기하기도 합니다. 

지수분포는 감마분포의 특수한 경우라고 ($ \beta = \frac{1}{\lambda})$라는 말도 하는데, 이렇듯 여러 분포는 서로 연결되어 있습니다.고 간단한 것처럼 말해서 미안합니다.

다섯 번째로 Gamma 분포를 알아보겠습니다. 

감마분포를 먼저 설명하자면 k번째 사건이 일어날 때까지 걸리는 시간에 대한 연속 확률분포인데, 총 k 번의 사건이 발생할 때까지 걸린 시간에 대한 확률분포를 말합니다. 

이때 k는 '형태 모수(shape parameter)', θ는 '척도 모수(scale parameter)'라고 합니다. 이게 뭥미. 그냥 k는 발생횟수, θ는 인터벌(평균대기시간)이라고만 생각하면 좋을 것 같습니다. 그러니까 θ = 1/λ 입니다. 

감마분포의 모양새는 이렇습니다. 

성공횟수 k가 커질수록 bell의 모양새랑 비슷해지고, 평균대기시간 θ가 커질수록 더 퍼지는 형태를 띱니다. 그러니까, 횟수가 많을수록 종모양, 인터벌(평균대기시간)이 클수록 더 벌어짐이라고 생각하면 좀 더 이해하기 좋을 것 같습니다. 

감마분포의 pdf는 복잡한 과정을 거쳐서 다음과 같은 식으로 나타낼 수 있습니다. 

시시하다.고 생각하고 봐 주세요. 그래야 만만해지니까요.

$$ \begin{align} f(x) &= \dfrac{\lambda^k t^{k-1} e^{-\lambda t}}{(k-1)!} \space \space where \space (k-1)! = \Gamma(\alpha), \space \theta=\dfrac{1}{\lambda} \\ &= \begin{cases} \dfrac{1}{\Gamma(k)\theta^k}x^{k-1}e^{-\frac{x}{\theta}},\space &x>0\\ 0, &otherwise \end{cases} \end{align}$$

사실 이렇게까지 복잡한 수식을 쓴 이유는 굳이 감마 함수를 쓰지 않더라도 pdf를 표현할 수 있는데, !(factorial)이 복잡하기도 하고, Factorial을 양의 정수 말고 양의 실수에 적용하도록 Gamma함수로 대치해서 쓰다 보니, 이름이 Gamma 분포가 되어버렸다는 사실을 말하기 위해서 두 번 다시 만나고 싶지 않은 수식을 한번 써 봤습니다. 

여기에서 k 발생횟수를 α로 하고, β를 λ(평균발생률)로 치환해서 표현하기도 합니다. 그렇게 되면,

$$  \begin{align} &= \begin{cases} \dfrac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x},\space &x>0\\ 0, &otherwise \end{cases} \end{align}$$

이것이 바로 α개의 사건 발생까지 걸리는 시간의 확률입니다. (이때 λ, 즉 β는 포아송 평균 발생율입니다)

이렇게 여러가지로 표현하는데, 제가 가장 선호하는 표현은 k를 발생 횟수, λ가 평균 발생율(1/θ)로 표현하는 것 입니다. 

$$  \begin{align} &= \begin{cases} \dfrac{\lambda^k}{\Gamma(k)}x^{k-1}e^{-\lambda x},\space &x>0\\ 0, &otherwise \end{cases} \end{align}$$

이겁니다. 걍 발생횟수와 발생 rate로 pdf를 정리하면 이해하기 좀 쉬운 것 같아서 선호합니다. 

가만히 그래프를 보면 k=1 일 때 보면 어디서 많이 본 그래프 아닌가요? 지수분포랑 닮았네요. 음. 무슨 관계가 있을까요. 지수분포는 포아송 사건이 소요되는 시간 내에 1회 발생할 때 시간의 확률 분포이고, 감마분포는 포아송 사건이 소요되는 시간내에 k회 발생할 때까지 시간의 확률 분포입니다. 그러니까 감마분포의 특별한 케이스가 Exponential입니다. 즉, 감마분포만 알면 된다는 이야기입니다.지만 이름이 너무 정감이 안갑니다. 감마분포를 이해하려면 예제를 보면 조금은 이해하기가 낫습니다. 

예제) 어떤 가게에 1시간당 5명이 옵니다. 1시간 이내에 2명의 손님이 가게에 올 확률은? 어떻게 될까요? 
지금 사용해 볼 pgamma는 발생횟수(k)와 rate(λ)를 직접 인자로 받습니다. 
k = 2, λ = 5 잖아요? 
이걸 계산해 보면 0.959입니다. 96%정도의 확률로 2명은 온다는 거겠네요. 

> pgamma(1, shape=2, rate=5)
[1] 0.9595723


* 참고로, 다른 pdf 표현들에 적용해서 보려면,
α = 2 (발생횟수), shape
β = λ = 5 (rate) rate
θ = 1/λ = 1/5 (Interval), scale 입니다. 

하나만 보면 정이 없으니까, 하나 더 보시죠.
예제) 어떤 기계는 10일에 1번 고장이 납니다. 그렇다면 60일 이내에 5번 고장이 날 확률은?

$P(X <= 60)$ 이걸 구하는 것인데, 그 parameter는 
k = 5, λ = 1/10 이잖아요? 

> pgamma(60, shape=5, rate=1/10)
[1] 0.7149435 


* 참고로 다른 표현의 pdf들의 term을 정리하면,
α = 5 (발생횟수), shape
β = λ = 1/10 (rate)
θ  = 1/λ = 10 (Interval) scale 이 되겠죠.

사실 이렇게까지 예제를 들지는 않는데, 감마분포는 워낙에 처음 보니까, 실제로 적분하는 형태로 하나만 더 해보겠습니다. 

예제) 전화교환기에 도착되는 호출 신호는 분당 평균이 5회인 포아송 과정을 따를 때, 1분 이내에 2번의 호출 신호가 도착될 확률은 어떻게 될까요?
2번의 호출 신호가 도착되기까지 소요된 시간을 X라 하면, 2번의 포아송 사건이 발생되기까지 소요된 시간
k=2, λ=1/5인 감마분포를 따르는 확률변수니까, 실제로 적분을 해서 구하면 다음과 같이 표현할 수 있겠습니다. 

$P(X \leq 1) = \int^{1}_{0} \frac{\lambda^k}{\Gamma(k)} x^{k-1} e^{-\lambda x}dx = 0.96$ 

이제 좀 감이 오시죠? 

더 이상 분포를 알아보려고 하면 머리가 깨질 것 같으니까, 이 정도에서 마무리 짓는 것이 어떤가 생각합니다. 

계속 헷갈리니까 한번 테이블로 정리해 보면 좋겠다는 생각이 들어서 한번 정리해 봤습니다. 도움이 되었으면 좋겠습니다. 

아마도 포아송 분포에서의 확률은 모수에 따라 그 결과가 달라집니다. 어떤 사건의 발생횟수가 (모수를 갖는) 포아송 분포를 따르는 확률과정을 '포아송 과정 또는 포아송 프로세스(Poisson Process)'라 하고, 여기서 '확률과정(또는 랜덤과정, random process)'이라는 말은 시간과 관련된 확률적인 성격을 갖는 것을 의미합니다. 즉, 간단히 말하면 시간에 따라 확률도 변한다고 이해하시면 됩니다. 따라서 '포아송 과정'도 시간에 따라 그 확률이 변한다고 이해하시면 되겠죠.

확률과 통계학에서 ~기호는 좌측에 있는 확률 변수가 우측에 있는 확률 분포를 따름을 의미합니다. 

갑자기 포아송 Process를 언급했는데, 그 정의를 다시 한번 되짚어 보면,
시간에 따라 랜덤하게 발생하는 사건들이
⓵ 겹치지 않는 기간 내에 발생하는 사건은 상호독립이고
⓶ 짧은 시간 내에 한 사건이 발생할 확률은 시간 길이에 비례하고
⓷ 짧은 시간 내에 두 개 이상의 사건의 발생할 확률은 무시할 수 있고
⓸ 위의 조건들이 전체 시간의 어느 부분에서나 동일하게 성립하면
그것을 포아송과정(Poisson process)이라고 합니다. 이거 좀 있어 보이네요.

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -