본문 바로가기
상관분석 : 회귀분석 = 상관관계 : 인과관계?

회귀를 통해서 인과관계를 밝혀낸다는 말이 너무 많아서, 저도 상관분석은 상관관계, 회귀분석은 인과관계를 증명하고, 밝혀내는 것인가? 엥? 하는 아주 큰 의문을 가슴에 품은 적이 있습니다. 결론부터 얘기하면 회귀분석을 통해 인과관계가 있는지 밝혀내는 것은 아닙니다요. 아무리 봐도 회귀분석을 한다고 해서 인과관계를 밝혀낼 수가 없단 말이죠. 상관관계와 인과관계와의 관계를 얘기할 때, 상관관계가 있다고 해서 인과관계가 있다고 말할 수 없다는 말. 오 좋습니다. 맞습니다. 맞고요. 그렇다고 해서 회귀가 인과관계를 밝힌다고 다는 말이 왜 나온 거죠?

상관관계는 선형적 관계가 있는지를 알아내는 것이고, 회귀분석은 막상 선형적 관계를 갖는 변수 두 개가, 독립변수, 종속변수의 관계로 보았을 때 '수치적'으로 어떻게 관련되어 있는지를 보는 것이지 인과관계분석이 아닙니다. 상관분석은 그러니까, 그냥 얼마나 선형적 관계가 있는가만 관심이 있고, 회귀 분석은 이 선형적 관계를 직선으로 그어서 수치적 관계뿐 아니라 무작위 변수값까지 추정이 가능할까에 초점을 맞추는 것이죠. 

상관관계를 가질 때, 설마 인과관계가 있을 것인가 하고 의심하는 단계는 다음과 같습니다.  
⓵ 단순한 우연의 일치일 뿐, 처음부터 인과관계 같은 건 없지 않았을까? 
⓶ 많은 책과 자료에서 얘기하는  예가 있는데, 아이스크림이 많이 팔린다고 해서 에어컨이 많이 팔리는 것이 인과관계인가. 그러니까, 더 정확한 영향을 끼치는 원인이 있지 않을까? 추가 잠재 변인이 있지는 않을까? 
⓷ 서로가 서로에게 원인인 동시에 결과가 되는 것은 아닐까? 
하는 의심을 해 보면 매우 도움이 됩니다. 

이것을 근거로 인과관계의 성질을 정확하게 알고 있으면 더욱더 좋을 것 같습니다. 

⓵ x가 y보다 시간적으로 먼저이고, (또는 논리적으로)
⓶ x가 있으면 y가 있고, x가 없으면, y도 없고. 
⓷ 마지막으로 x와 y사이에 지금보다 더 정확한 영향을 끼치는 원인이 없다. 

이라고 한다면 진짜로 인과관계로 생각해도 크게 무리는 없습니다. 결국 인과관계는 ⓵⓶⓷의 성질을  만족하는 상관관계라고 봐도 되겠군요. 흠. 그러니까, 회귀는 상관관계를 가지고 있는 두 변수 간의 함수관계를 통계적인 방법으로 알아낼 수도 있는 분석 방법이라는 것입니다. 

여기에서 잠깐, 우리가 흔히 알고 있는 x, y의 이름을 회귀분석에서는 다르게 부른다는 점을 미리 알고 있으면 매우 도움이 됩니다.라고는 했지만 꼭 알아야 합니다. (이미 여러 번 보았으니까, 알고 있겠지만 말이죠)

x : 독립변수(예측 변수 or 설명변수) : 결과에 영향을 주는 변수들을 말한다.

y : 종속변수(반응 변수) : 결과 값을 말한다.

또한 상관분석과 회귀의 가장 큰 차이는 상관분석의 경우, x와 y의 관계나 y와 x의 관계나 비슷합니다. 쉽게 말해 독립변수와 종속변수의 차이가 없습니다. 왜냐하면 얼마나 같이 변하는 가를 확인하니까요. 반대로 x와 y의 회귀는 y와 x의 회귀와 차이가 있고, arbitrary x에 대해서 y를 예측할 수 있습니다. 당연히 상관분석은 이것이 불가능합니다.  

회귀분석에서 “이론이 예측하는 방향과 크기만큼 독립변수의 변화가 종속 변수의 변화를 야기하는 현상”으로 한정한다면 회귀와 인과가 비슷하게 떨어지긴 합니다. 정확한 인과관계는 연구설계에 의해서만 증명이 가능합니다.  보통 이미 변수 간의 인과관계가 인정된 모델을 구현하여 검증할 수 있는 것에 불과합니다. 다시 쉽게 말하면 인과관계를 가진 것을 상정하고 그 관계를 밝혀낼 수는 있겠다 정도입니다. 

그러니까, 우리에게는 상관분석과 회귀의 차이에 관련하여 상관관계와 인과관계는 관계없다는 사실만 남았습니다. 한 문장에 '관계'라는 단어가 너무 많군요.

회귀분석을 굳이 얘기하자면 선형관계분석이라고 보면 좋겠습니다. 저는 이 용어가 더 마음에 들긴 하지만 또 '상관'과  '관계'는 무슨 차이냐?라고 뚝배기를 깨면 또 찔끔 그도 그런가 하고 이런 말은 참아야겠다. 하는 생각이 듭니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -