본문 바로가기
이 데이터를 보고 드는 생각은요? 데이터 디스렉시아

각 회사의 연봉통계를 보면 어째서 내가 느끼는 것과 거리가 있어, 이것 참 알 수가 없는 경우가 많이 있습니다. 어째서 내 연봉은 업계 평균을 항상 밑도는 것인지 알 수 없는 상심에 빠지게 마련... 흙. 하지만, 우리도 점차 전문가가 되면 평균을 왜곡시키는 Outlier 값이 될 수 있다고 생각합니다.  그런 것들을 위한 짧은 이야기!

자, 예를들어 우리나라 사람들의 평균 소득액에 대한 여러 가지 통계 관련 값을 보고 어떤 생각이 드는지 보실까요?

평균소득액이 1억원이라고 합니다. 어? 진짜? 우리나라 신문기사를 보면 평균 연봉이 1억 원이라는 기사가 심심치 않게 나옵니다. 실제로 그러니까 그런 기사가 나오는 것이겠지요.. 

하지만, 다음과 같은 통계값을 보시죠.  평균소득액이 1억 원, 중앙값은 4,300만 원, 최빈값은 2,000~3,000만 원이라고 한다면 어떤 느낌이 드나요?

가만히 보면 평균은 꽤 되는데, 중앙값이 더 낮죠? 이러면 아마도 매우 큰 이상값들이 있을 가능성이 있고, 최빈값이 2,000~3,000만 원이라면, 더더욱이 왼쪽으로 조금 쏠린 모양새가 되지 않을까요? 

그러면 이런 식의 현상을 잘 표현하고, 이해하려면 어떤 방법이 있을까 고민이 필요한 시점입니다. 그냥 마냥 평균만 믿고 있을 수는 없거든요. 

특히 이상치를 발견할 수 있는 방법이라고 생각하면 조금 더 "오, 꽤나 의미가 있겠는걸?" 라는 안도감이 있겠습니다.  보통 이상치의 처리 방법은 정상 범위를 넘어가는 이상치를 결측 처리하고, 제거 후에 분석하거나 정상 범위를 넘어가는 이상치를 최소/최댓값으로 변환 후 분석하는 것이 일반적인 Outlier(이상치) 처리 방법입니다.

일단 이런 식의 데이터의 구성을 시각적으로 볼 수 있는 좋은 방법이 있는데, 그게 Boxplot이라는 것입니다. Boxplot은 상자수염플롯(Box-and-Whisker Plot)등 다양한 이름으로 불리우는데, 도대체 수염은 어디서 온 것인지 상상이 되지 않습니다. 혹시 이 이름을 지을 때 할아버지가 수염을 만지면서 "지금 뭐 하고 있남?"하고 말을 걸어서 에라이 모르겠다 수염이라고 부르자-고 한 건 아닐까 할 정도라니까요. 역시 통계 용어란.

여하튼 Boxplot은 그림처럼 생겼고, 각각의 의미는 아래와 같습니다. 

최대값 : 제 3사분위에서 1.5×(Q3-Q1)을 더한 위치
제 3사분위(Q3) : 75%의 위치
제 2사분위(Q2) : 50%의 위치, 중앙값(median)을 의미
제 1사분위(Q1) : 25%의 위치
최솟값 : 제 1사분위에서 1.5×(Q3-Q1)을 뺀 위치.

가만히 보면 최대값, 최솟값이 진짜 최솟값, 최댓값이 아니라, 어느 정도 25%~75%의 데이터가 차지하는 범위를 1.5배 해서 계산하게 되는데, 이렇게 해서 최댓값 이상이거나, 최솟값 이하의 값들은 Outlier(이상치)로 보고 이상치 처리를 하게 됩니다. 

자, 그러면 여러가지 경우의 Boxplot을 보게 되면 다음과 같이 표현될 수 있겠습니다. 이렇게 본다면 전반적으로 데이터가 어떻게 분포되는지 조금 쉽게 볼 수 있겠군요. 휴. 다행입니다. 

그리고 재미있는 사실은 평균값은 극단값에 조금 더 민감하게 반응합니다. - 반면에 중앙값은 덜 민감합니다 - 그러다 보니, 이런 분석 없이 평균만으로 판단하면 잘못된 대푯값으로 판단할 가능성이 당연히 있죠. 그럼에도 불구하고 우리가 일반적인 (산술) 평균을 대푯값으로 사용하는 이유는 다음과 같습니다. 

① 표본의 크기가 커지면 극단값의 영향을 덜 받음.
② 표본평균의 분포는 정규분포를 따름. (중심극한정리)
③ 평균을 중심으로 한 편차의 제곱합이 자료의 다른 값을 중심으로 한 편차의 제곱보다 항상 작음.

이러저러한 여러 가지 사정 때문에 평균을 대푯값으로 쓰게 되는데, 그래도 살펴본 바와 같이 극단값에 민감한 편이니까, 그 부분을 잘 감안해서 데이터를 보아야 합니다. 요오오오 

조금 더 극단적인 데이터를 본다면 이런 봉우리 두 개의 데이터가 있을 때 평균은 전체를 대변할 수 없고, 이런 경우 두개의 그룹이 있다고 판단해야 합니다.  

평균에 대한 여러 가지 용어가 있는데.  Expectation(기대값), Mean(평균), Average(평균)이 있는데, 이것들의 차이에 관하여 얘기해 보자면 Expectation은 모집단에서의 평균을 말하고, Mean은 (평균에는 조화평균등 정말 여러가지 평균 방법이 있는데) 보통 우리가 사용하는 표본의 합을 n으로 나누는 것을 Arithmatic Mean이라고 부릅니다만. 보통 Arithmatic을 빼고 그냥 Mean이라고 말합니다. Average는 Mean 중에서 Arithmetic Mean을 특별해서 지정해서 말합니다. 그러니까 일상생활에서는 Mean과 Average가 같다고 여겨지는 것이 보통이지만, 차이를 알고나서부터는 뭔가 될 대로 되라는 식은 아니구나 할 수 있습니다.   

결측 값을 다룰 때 다음과 같은 헷갈리는 용어가 있는데, 이번 기회에 알아두면 좋을 것 같아요. 
- NA : Not Available
- NaN : Not a Number

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -