본문 바로가기
우도란 도대체 무엇인가 - 점 추정전에 하는 준비 체조 - 가능도, Likelihood라고도 불리는 카오스적인 납득

Likelihood, 우도가 도대체 무엇입니까. 요새는 가능도라고도 많이 부릅니다. 이 부분에서는 정말 제발 살려주십시오.라는 신음소리가 새어 나옵니다. 통계를 하다 보면 자꾸자꾸 만나게 되는 우도-가능도-Likelihood를 잘 알게 된다면 이거 또한 한국어를 하나 더 알게 되는 쾌거가 아닌가 생각합니다. 여하튼 이거 도대체 뭐죠. 특히 우도라는 말은 정말 감이 1도 오지 않습니다. 세상에 우도라는 단어가 있다는 사실만으로 언제까지 한국어를 공부해야 하는가 하는 의문이 생기는 것은 너무나 당연하다고 생각합니다. 책임은 못 지겠지만, 어감으로 봐서는 우주 도킹의 줄임말인가 같은 분위기이지만, 데이터와 통계에서 우주 도킹은 도대체 어디에 연결되는 것인지 도무지 모르겠습니다. 

늘 그렇듯이 우도-가능도-Likelihood를 마구 섞어 쓰도록 하겠습니다. 눈에 들어오자 마자 같은 것으로 인식되도록 하는 괴로운 훈련이라고나 할까요. 이번 기회에 익숙해 지길 바라는 그런 마음입니다. 

우도와 확률은 $\mathcal{L}()$ 과 P()로 표시하고요, 그 관계는 아래와 같습니다. 

$$ \mathcal{L}(\theta; Observation) = P(Observation; \theta) \cdots (*)$$

음? 아니, 그럼 우도와 확률은 같은 것인가요? 정말 우주 도킹 같은 이야기이군요. 사실 이 표현은 적당하면서도 매우 위험한 표현이라고 생각합니다. 왜냐하면 우도는 확률이 아니거든요. 

더 자세하게 들어간다면, 확률은 θ, 즉 모수가 정해진 상태에서 Data가 목격될(관측될) probability을 의미하고, Likelihood는 Data가 관측된 상태에서 특정 확률분포에 대한 "어떤" strength을 Likelihood라고 부른다는 점입니다. 그러니까 Likelihood는 Data가 given일 때의 특정 θ대한 믿음의 강도를 나타내는 값(strength)을 의미한다고 생각하면 정말 틀림없습니다.   어떤 Data가 관측되었을 때, 어떤 확률분포의 θ Parameter모수가 Unknown Variable인 것을 Likelihood라고 한다고 하면 함수로 표현할 수도 있다는 점을 이야기한다면 더욱 있어 보이겠군요. 

어, 그렇게 풀어쓰니 이것은 통계의 기본 아니겠습니까? 표본으로부터 뭔가를 알아내는 여정. 그것이 통계니까요. 그렇다는 얘기는 통계에서의 가장 중요한 Concept임에 틀림없겠습니다. 무엇이 Variable인가의 문제거든요. 엄청 중요하네요. 이제는 우주 도킹의 환각에서 벗어날 수 있을 것 같은 기분입니다. 

자, 여기까지 잘 왔다면, Likelihood는 이제 우리 것입니다. 그러니까, Likelihood function은 $\mathcal{L}(\theta|x)$이므로, x-data는 이미 정해진 상수이고, θ에 대한 함수인 것입니다. 그러니까, 어떤 θ에 대한 어 그럴 듯 한걸? 하는 믿음의 강도가 나오겠군요.  토막상식으로는 - 당연히 θ가 어떤 특정 값으로 주어진다면 - 또는 가정하여 정한다면 - Likelihood function은 당연하게도 함수가 아니라 상수가 되어 어떤 강도를 나타낼 수 있겠습니다. 

이런 식으로 모수를 가정해서 분포를 특정하게 되면 (θ를 특정하면) 관측한 데이터에서의 그 강도의 값을 구할 수 있게 됩니다. 이때 가정한 분포에서 관측한 데이터에 대한 y높이가 강도인데 이 강도가 Likelihood입니다. 이것이 높을 수록 해당 데이터를 잘 표현하는 모수가 될 수 있겠군.이라고 보면 되겠습니다. - 이산확률일 때는 확률, 연속확률일 때는 Density가 됩니다.- 이 예에서는 강도가 그리 높지 않군요.

요컨대 가능도를 실제 숫자로 계산하기 위해서는 일단 θ 모수가 뭐뭐 ~라고 치고 계산을 해야 합니다. θ에 대한 함수이니까요. 

가능도를 정의하자면, θ→μ,σ,p 등을 Parameter모수라고 보았을 때,  

$$\mathcal{L}(\theta|x)  = 
  \left\{ 
  \begin{array}{ c l }
    P(X=x|\theta) & \quad \textrm{when } Discrete, pmf \\
    f(X=x|\theta)                 & \quad \textrm{when } Continuous, pdf
  \end{array}
\right.$$
라고 정의할 수 있겠습니다. 우도를 계산하기 위해서는 기존에 알고 있는 확률분포를 이용할 수밖에 없겠고, 그 가정하에서 관측된 데이터가 잘 맞는지?. 하는 뭐 그런 것입니다. Condition과 Observed가 반대로 되어 있어서 헷갈릴 텐데요. 

"$P(X=x|\theta)$ 이것 하나 가지고, θ known일 때는 확률(밀도), θ가 unknown일 때는 우도라고 부를 뿐입니다."

참고로 P는 이산확률인 경우 pmf를 말하고, f는 연속확률인 경우 pdf를 말합니다. 그러니까 맨 처음의 (*)로 표기한 정의는 설명할 때는 그럴 듯 하지만 - 이산확률인 경우에는 맞고, 연속확률인 경우에는 맞지 않는 - 정확한 표현은 아니라고 봐야 하겠습니다. 어찌 됐건, Likelihood는 Condition이 분명히 Observed Data가 있을 때, 모수에 대한 Strength라고 했을 텐데, 막상 계산은 Condition은 모수이고, 그때의 Observed Data에 대한 것을 계산하다니 참으로 헷갈리는 바입니다. 

아래의 Binomial 분포의 그림을 보면 더 명확해질 텐데요. 확률은 확률변수인 Event가 x축 변수인데 반해, Likelihood는 모수p가 변수가 됩니다. 오. 특정한 Event를 fix하고, 모수가 변함에 따라 관측한 데이터가 얼마나 모수에 잘 맞는지에 대한 강도인 Likelihood가 어떻게 변하는지를 그린 것인데요.

Featured R. Gallistel. 이 그림은 R. Gallistel이라는 분이 본인의 논문에 그려 놓은 그림인데 너무나 명확하게 차이를 보여주어서 약간은 눈물이 날 지경입니다. 그러면 Likelihood가 어떻게 그려진 것인지를 조금 진지하게 들여다본다면, 뭐 이렇습니다.

Binomial의 모수p에 대한 Likelihood 함수는
$$\mathcal{L(p\,|\,data)} = \binom{n}{x} p^x (1-p)^{n-x} = P(data\,|\,p) $$ 가 되겠습니다. 이 관계를 아주 잘 보면 좋겠습니다. 

이때, 그림을 아주 자세히 살펴보면, 10번의 시행에서 7번의 성공을 한 것을 관측했으니까, Likelihood에서 복합하니까 계수를 생략하고요. 표현한다면,

$$\mathcal{L\,(\,p|\,data)} = P(data\,|\,p) = p^7 (1-p)^3 $$ 이 되겠군요. 어 그렇군요. Likelihood는 확률분포 함수를 통해서 계산할 수 있다. 그것뿐입니다.

그러면, p를 0.1~0.9까지 0.1씩 변경해 가면서 값을 볼까요? 

p를 변화시키면서 likelihood를 보니 R. Gallistel의 그림과 똑같군요. 여기에서 잠깐  토막 정보. 우리가 관측한 데이터 10번 시행해서 7번 성공하는 현상을 가장 잘 설명하는, 즉, Likelihood가 최댓값을 갖는 경우는 p가 0.7일 때 이군요! 그러면, p가 0.7일 때, 관측한 데이터를 제일 잘 설명한다고 할 수 있겠습니다. 바로 다음에 더 자세하게 이야기하겠지만, 이것이 바로 최대우도추정법-Maximum Likelihood Estimation 인데, 어쩌다가 미리 보게 되어버렸습니다. 조금 아껴두었어야 했는데, 면목없네요. 하지만 더 자세한 이야기가 이어질 것이니까, 느긋하게 기다려 주세요. 

가끔 보면 Likelihood를 확률밀도함수 pdf의 y높이로만 설명하는 곳들이 곧잘 있는데, 이제까지 이야기한 의미에서 그냥 y높이가 아니라 Likelihood를 구하는 방식이 그렇기 때문에 y높이가 되는 것입니다. 

그러니까, 요컨대 유식한 말투로 Likelihood와 Probability에는 차이를 적어보면, Likelihood에서 모수(parameter)가 변수이지만, Probability에서 모수(parameter)는 fix, Constant (상수)입니다. Likelihood에서는 모수가 변수이므로 Likelihood를 Maximize하는 모수를 찾을 수 있습니다

Likelihood가 나오는 곳이 또 있는데, Bayes rule에 Likelihood가 나옵니다. 
$$ Posterior = \cfrac{Likelihood \cdot Prior}{Model\, Evidence}$$ 인데, 수식으로 나타내면,
$$P(\Theta \mid d a t a)=\cfrac{P(d a t a \mid \Theta) \times P(\Theta)}{P(d a t a)}$$ 입니다. 

이때 $ P(d a t a \mid \Theta) $를 보면 Likelihood 맞죠? 베이지안을 처음 맞닥뜨릴 때, 뜬금없이 Likelihood가 나오게 되는데, 이건 또 무엇인가 하는 의문에 머리를 쥐어 뜯게 되는데, 이렇게 보니 별거 아니니까, 이제부터는 헷갈리지 않았으면 합니다. 베이지안에 들어갈 때 이 개념만큼은 꼭 지참해 주세요. 그러니까, 왜 뜬금없이 Likelihood라고 부르는 것이 튀어나오는 것일까에 대한 의문은 이 정도로 담담하게 끝내기로 하면 좋을 것 같아요.

여기까지 왔다면 기왕 이렇게 된 거 베이지안 추정법에서도 Likelihood가 나오는데 어떻게 다른지 한번 미리 얘기하자면, 최대우도 추정법에서는 어떤 데이터를 목격했을 때, Parameter모수를 Unknown 상수로 보았지만 베이지안 추정법에서는 어떤 데이터를 목격했을 때 Parameter모수를 확률변수로 보는 점이 다릅니다. 그러니까, 베이지안 추정법에서의 Parameter모수는 확률변수니까 pdf확률밀도함수를 가질 수 있게 됩니다. 괜한 말 꺼내서 조금 미안합니다. 봐주세요.  

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -