본문 바로가기
왜 t검정은 보통 분석이라고 불리지 않는 것일까?

이번엔 정말 짧은 글입니다. 긴 글이 많았으니, 짧은 글도 있어야 하지 않을까요. 

"데이터 분석과 통계 분석 - 너희 도대체 어떻게 하는 거니?"편에서 분석이라는 것에 대해서 이야기해 보았었는데 말이죠. 통계분석이란 결국에는 마지막에는 주장을 증명하기 위해서 검정을 동원하게 됩니다. 2개 집단의 차이가 확률적으로 있는지 확인하는 것이 t Test입니다. 

사실상 2개집단 차이를 볼 때 차이 분석이라고 부르지 않고, 보통 일반적으로는 그냥 t 검정이라고 부르는 경향이 있는데요. 왜 그룹 간 차이를 검정하면서도  분석이라고 불리지 않는가요. 이제부터 다룰 ANOVA도 엄연하게 분석, 교차분석도 엄연하게 분석이라고 하면서 말이죠. 

그 이유는 검정을 하기 전에 보통 표본을 분석하기 위해서 - 즉, 통계량을 구하기 위해서 - 적당한 Grouping이나 데이터 변환등을 동원해서 데이터를 주물럭거리는 단계가 있기 마련인데, 차이 분석의 경우에는 표본을 구하기만 하면 곧바로 검정이 가능하므로 특별하게 분석이라고까지 부를 필요가 있을까 할 정도이므로 일반적으로 굳이 차이 분석이라고 부르지 않고, 그냥 차이 검정 또는 t 검정이라고 부르는 경우가 많습니다.  

분석의 예를 들면, ANOVA는 분산의 아이디어로부터 표본(원시 (Raw) 데이터)을 분산의 형태로 변환해서, F검정을 하고, 교차분석은 교차표라는 형태로 데이터를 Agrregation 한 후에 카이제곱 검정을 합니다. 데이터를 뜯어보는 체계적인 절차가 조금은 덧붙여져 있군요. (ANOVA는 비록 분석이라고 불리긴 하지만 거의 검정처럼 정해진 절차를 쉬리릭~ 통과하여 F검정까지 해버리니까 오히려 왜 이게 분석이지? 그냥 3집단 차이 검정 아닌가... 라고 생각해 버릴 정도인데 말이죠. 그래도 쉬리릭과 F검정이 엄연하게 나뉘어 있으니까 분석이라고 보는 편이 맞겠습니다.)

그래서 보통 다른 사람들은 t검정은 분석이라고 부르지 않긴합니다만. 남들이 어떻든 간에 저는 그래도 차이 분석이라고 꼭 부릅니다. t검정이 너무 외롭잖아요. 

어쨌든 t검정 덕분에 검정이라는 것에 한껏 익숙해질 수 있었으니까, 다른 검정들도 같은 원리이겠구나! 하고 생각할 수 있게 되었습니다.   게다가 집단 간 차이 분석은 t검정을 통해 검정한다는 분류가 가장 마음이 편안해지더라고요. 

"데이터 분석과 통계 분석 - 너희 도대체 어떻게 하는 거니?"편에서 다뤘어야 하는 내용이지만, 이제서라도 잊지 않고 이야기할 수 있어서 다행이라고 생각합니다. 휴

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -