이미 추론이라는 것을 "데이터 분석과 통계분석"편에서 들여다보았지만, 아무래도 확실하게 짚고 넘어가는 편이 이야기의 전체적인 균형상 좋을 것 같아서 다시 이야기를 꺼내는 이야기. 게다가 검정에 대해서 더 자세히 다룰 예정이고, 지금은 추정을 다루고 있으니, 더더욱이 한번 더 이야기를 꺼내기에 좋은 포인트가 아닌가 합니다.
추론이라는 단어가 풍기는 냄새는 셜록홈즈가 여러 가지 증거를 보고 - 섬세한 관찰 - 논리적인 조합 - 합리적인 사고 -으로 결론에 도달하는 그런 장면의 냄새라고 생각합니다. 통계적 추론은 표본을 통해서 모집단에 대한 추론하는 과정을 말합니다.
추정(Estimation)은 표본을 이용해서 모수(Parameter, Θ)를 어떠한 값으로 추측하는 과정으로서 추정값(점추정) 또는 추정 값의 범위를 이용해서 모수를 추정하게 되는데, 이때 추정 값의 범위를 오차범위(표본오차, 신뢰구간)등으로 값을 제시합니다.
"아, 그렇군요."
가설검정(Hypothesis Testing)은 무엇인가 하면 표본을 이용해서 모집단에 대한 주장을 하거나, 우리가 주장하는 가설이 모집단에 대해서 옳거나 그르다고 판단하는 과정을 의미합니다. 이때 가설이 귀무가설(Null Hypothesis), 대립가설(Alternative Hypothesis)로 제시됩니다.
별도로 예측은 기존의 표본(observation)을 이용해서 입력과 출력 사이의 관계를 분석 한 후에 새로운 관측치를 가능한 한 올바르게 판단하는데 주의를 기울이는 과정을 의미합니다. 보통은 회귀분석, 머신러닝 등에서 이용됩니다.
통계적 추론이라고 해서 대단하게 셜록홈즈처럼 모집단에 대해서 뭔가 어마어마한 정보를 자세하게 알아낼 거라 상상했다면 미안합니다. 통계에서의 추론은 이 정도니까, 셜록홈즈의 추론보다는 오히려 간단한 거 아닌가? 하는 마음으로 이해해 주길 바래요.
이 얘기가 나왔으니까 말인데, 이전에 얘기했었지만, 다시 한번 이야기하자면, 사실 추정을 하기 때문에, 검정을 할 수 있고, 검정이 가능하기 때문에 통계적인 결론을 낼 수 있다고 보면 줄거리가 어느 정도 맞아 들어갑니다. 뭐, 쉽게 얘기하면 평균을 추정하고, 평균을 추정하니까, 평균 비교 검정이 가능하고, 평균 비교 검정을 하니까, 실제로 그런지 판단할 수 있는 뭐 그런 시시껄렁한 이야기입니다. 여기에서 다시 한번 얘기하지만 이 모든 것이 중심극한정리 덕분에 가능한 일들입니다. 100퍼센트의 통계학자가 있다면, 오, 과연. 이라고 이해해 주지 않을까 합니다.
방금 이야기는 이거 평균을 추정해서 어디다 쓰지? 어차피 맞지도 않는데.라고 생각했던 적이 있었는데, 평균을 추정하면 추정한 평균을 이용한 검정을 할 수 있다는 점을 전혀 인지하지 못했던 때의 의문입니다. 아무래도 통계라는 게 하나씩 밟아나갈 순 없고, 무작정 끝까지 한 번은 경험해야 앞쪽에 아하! 하는 뭐 그런 일이 벌어지는 이유가 아닐까 합니다. 통계는 약간 되돌이표 같은 학문 같습니다.
댓글