본문 바로가기
확률과 통계에 관한 소고

통계나, 머신러닝에 대해서 정말로 내 마음에 든 것은 데이터사이언티스트라는 미지의 영역에 대한 느낌이었는지도 몰라요. 마냥 잘해보고 싶다는 생각을 해왔으니까. 아직도 어떤 부분에 대해서는 정말 어렵고 이해가 되지 않는 부분도 많이 있습니다.

이 분야에 대해서 폭발적인 관심과 성장이 있는 이 시기에 저도 무언가 이바지 하고 싶다는 생각은 매우 강했는데, 이렇게 작게라도 정리하고 나눌 수 있다면 좋겠다는 생각이 뭉게뭉게 피어나서 일단은 이렇게 시작하게 되었습니다. 그러니까, 기념촬영이라도 하고 시작하자라는 마음으로 지금 이 순간 이 마음을 자, 찰칵. 잘 나아가 봐요. 우리. 

확률통계에 대해서 그 향기를 음미하자면 대한민국에서 태어난 사람이라면 확률과 통계에 대해서 만만치 않다고 생각할 확률이 엄청 크다 - 99% 신뢰도로.. 음.. 뭐.. 음.. - 이라고 생각하고 있습니다. 

확률통계가 어려운 이유 
① 한자가 너무 많음 
② 느닷없이 갑자기 확률분포를 얘기함, 어디서 나오신 건지?
③ 수식의 난해함 
④ 말장난이 많음. 가만히 읽다 보면 이게 무슨 소리지?  
⑤ 어떨 때 보면 거의 사기임 : 정확하게 틀리는 것 보다 대강 맞는 게 낫다는 철학이라니
⑥ 수식은 너무 불친절하고 잘 안쓰는 로마자를 많이 씀 

사실 이유를 대자면 확실히 무한히 많은 이유를 댈 수 있을 것 같은 느낌입니다. 

더 적당하게 그 느낌을 이야기 하자면, 다른 분야의 경우에는

"1+1=2야"
"그러면 1+1+1은 얼마?"
"음."
"3?"
"정답."

이런 식으로 하나씩 쌓아가면서 응용을 한다거나, 음음 이러니까, 이 문제는 이렇게 접근해야겠다 처럼 아주 작은 곳에서부터 하나씩 패턴을 학습하면서 전진하는 느낌이 아니라, 굉장히 쉬운 확률 문제를 몇 문제 푼 다음에 갑자기 어려운 문제로 이건 어때?라면서 돌변하는 사태라고나 할까요. 저에겐 절대로 무리예요. 

처음 확률과 통계를 접하는 사람들이 확률과 통계를 뭔가 차근차근 명료하게 배워가는 맛이 없다는 불평을 많이 하게 되는데, 그 느낌을 받았다면 사실 정확하게 느낀 것 아닐까? 하는 저의 감상입니다. 

특히나 이런 오해가 생긴 가장 큰 이유가 통계학 교육이 평균, 분산, 정규분포 수준에서 딱 멈춰있기 때문인 것 같은 느낌도 있어요. 도대체 이건 왜 하는 것인지. 모집단을 이미 알고 있는 상황에서 문제를 풀다보니, 이거 별거 아니잖아.라고 생각해 버리게 되는 경우가 많았던 것 같아요.

구체적인 문제의 예를 들어보면, 모평균을 추정하는데 모표준편차는 알고 있는 경우가 있습니다. 모평균을 몰라서 추정하는데, 어떻게 모표준편차를 알고 있을 수 있는지? 의문입니다. 또 그런 경우에 언제 표본표준편차를 쓰고 언제 모표준편차를 쓰냐며 헷갈리는데, 우리가 배울 때는 '모표준편차를 구하기 힘들 때는 표본표준편차를 쓴다' 고 배웁니다. 
"아니 왜?"
이거 그냥 외워야 하니, 보통 괴로운 것이 아닙니다. 

 

뜬금없이 상식선에서 통계라는 단어를 다시 한번 되짚고 넘어가려고 합니다. 통계,  통계가 머지? 하는 경우가 생기는데, 이건 어떤 단어를 계속 입에서 오물거리다 보면 이게 뭐지? 싶은 느낌과 비슷한데, 통계라는 말을 잘 보면 엄청나게 뭔가를 혼용해서 쓰고 있다는 느낌이 있다구요. 그게 뒤의 말을 생략해서 써서 그렇습니다. 입은 비뚤어져도 말은 바로 하라고 했잖아요?

통계라는 말은 3가지 정도의 의미 섞어 쓰고 있다고 볼 수 있겠는데, 그게 수치화된 자료(데이터) 자체, 데이터에 대한 대표적 수치 또는 요약, 데이터를 분석하는 방법과 결과를 모두 통계라는 말로 혼용해서 쓰고 있다고 봐야 하지 않을까 합니다.

통계라는 단어가 사람들의 입에 오르내릴 때는 "통계를 보면 = 통계(데이터)를 보면", "통계치를 보면 = 통계(수치)를 보면", "통계적으로 보면 = 통계(학의 방법론)적으로 보면" 이런 식이거든요. 참내. 이건 완전한 사람 곯려 먹기 소모전이라고 생각합니다.

사람들의 입에 오르내리는 예를 들어본다면,
 ① "1년 전 오늘의 호떡의 매출 통계를 보면"이라는 말은 "1년 전 호떡에 대한 통계(자료)를 보면"이라는 말과 같고
 ② "10년 전 이번 달의 날씨 통계(치)를 보면"이라는 말은 "10년 전 이번 달의 통계치(통계 요약 수치)를 보면"이라는 말과 같고
 ③ "이 키가 커지는 현상을 통계적으로 보면"이라는 말은 "통계(학)적으로 분석해 보면"이라는 말과 같습니다.

여기서만 하는 얘긴데... 모든 단어에는 철학이 있다고 하잖아요? 그러니까 이걸 구분하기 전에는 철학을 이해하기 어렵지 않을까? 하는 남들은 다 알지도 모르겠지만 막상 저는 잘 모르는 상쉭을 굳이 정리해 보았습니다.

 

그런 의미에서 - 이미 머리에 장착하고 계신 분들이 많겠지만 - 데이터를 가지고 노는 방법도 머릿속에 가지고 있다면, 조금 더 쉽게 접근할 수 있을지 모른다는 생각이 번뜩 들어서 한번 정리해 보는 것이 어떨까 합니다. 

큰 줄기에서 얘기한다면, 주어진 데이터가 어떻게 생겼는지?, 주어진 샘플로 모집단을 추정한다던지, 데이터를 통해서 예측을 한다던지, 변수들이 있다면 변수들끼리의 관계나 영향이 있는지등이 이 공부를 하는 목적이라고 하면 좋겠다는 생각이 문득 듭니다. 
① 주어진 데이터가 어떻게 생겼는지 알고 싶다. 
  → 기술통계, 즉 descriptive 통계로 데이터셋을 시각화 한다. 여기에서부터 어려움이 생겨요. 기술통계라니. 여기에서 설명한다는 의미의 기술이에요. 탐색적 분석이라고도 합니다. 
② 주어진 샘플로 모수를 알고 싶다.
  → 통계에 기반한 추정, inferential 이라고 말합니다. 
③ 뭔가 이게 진실인지 알고 싶다. Hypothesis Testing이라고 합니다. 
④ 또한 예측을 하고 싶다.
  → 데이터를 통해 예측을 한다. predictive 라고 합니다. 
⑤ 변수들의 인과관계를 분석하고 싶다. 
  → 인과분석이라고 하는데 영어로는 causal이라고 부른다고요. 
⑥ 마지막으로 변수끼리의 영향을 분석하고 싶다. 
  → 역학분석, mechanistic  분석이라고 합니다. 음. 
  
우리가 흔히 데이터를 분석한다고 하면 해야 할 것들. 그대로 인 것 같네요. 이제부터 우리가 가야 할 길이 잘 보이는 것 같기도 하고, 일단 이렇게 적어 놓으니 어딘가를 가기 전에 내비게이션을 켜고. 음음 이렇게 가야 한단 말이지. 정도의 전체 맵을 정리한 것 같아. 마음이 놓입니다. 

이제부터의 여정에서 데이터분야에 대하여 더 애정이 깊어졌으면 하는 개인적인 바램으로 시작합니다. 대단하게 읽으면서 연필을 들어야 하거나, 코딩을 해야 하는 부분이 최대한 없도록 하려고 하니 - 이해를 위해 아닌 부분도 있을 수 있는 점 죄송합니다 - 그냥 두 눈의 힘을 쭉 푸시고 읽어주세요. 헷 

 

저는 개인적으로 통계용어를 한자로 쓰면 조금 이해하기 어려워서 오히려 영어 용어를 주용어로 사용할 생각인데, - 사실은 마구 섞어 쓸 요량이긴 합니다만 - 이 부분은 이해해 주세요. 일관성 없이 섞어 쓸 거니까요. 

 

사실 확률을 아주 잘 알아야 통계를 이해할 수 있는 것은 아니라는 누군가는 동의하지 않을 수 있는 생각을 가지고 있습니다. 가우시언만 잘 알아도 된다고 생각합니다. 혹시 확률 부분이 너무 지루하고 어렵다면, 굳이 씨름할 필요 없이, 일단 넘어가고 필요할 때마다 다시 한번씩 들춰보는 것도 나쁘지 않은 방법 아닐까 합니다. 확률을 보다가 지쳐서 통계를 못 하게 된다면, 그거야말로 책의 앞부분만 새카맣게 되는 꼴이니까, 그러지 않았으면 합니다. 

 

통계와 통계학을 구분할 때 통계라는 것은 어떤 것을 조사해서 구체적인 숫자로 나타내는 것을 통계라고 합니다. 결국 자료를 구체적인 숫자로 표현하는 것 자체가 통계인데 반해, 통계학은 그 숫자를 요약하거나 (통계치), 숫자를 통해서 합리적으로 무엇인가를 분석하여 알아낼 수 있는 과학적 방법 체계라는 점을 이해하면, 훨씬 친근하게 느낄 수 있지 않을까 생각합니다. 그러니까, 통계적으로 그건 이상하지 않아요? 라는 말은 통계(학)적으로 그건 좀 다른 것 같은데요? 라는 말로 곧바로 번역이 가능하면 더욱 마음이 놓일 것입니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -