본문 바로가기
도대체 왜 회귀는 회귀라고 불리는 걸까

Regression회귀 분석은 도대체 왜 회귀라고 불리는 걸까. 감이 1도 없습니다. 도대체 어디로 돌아간다는 건지요? 

실제로는 회귀분석은 변수 간의 경향성 관계를 찾아내는 것인데, 변수 간의 관계와 회귀라는 단어는 전혀 관계가 없는 것처럼 들립니다. - 그래서 분석이라고 부르는군요. - 보통의 사람이라면 Curve Fitting추세선 찾기 정도로 생각이 드는 것이 정상이죠.

회귀분석을 좀더 정확하게 얘기하면 변수들 간의 관계를 파악함으로써 어떤 특정한 변수의 값을 다른 변수들로 설명하고 예측하는 통계적 기법입니다. 예측하고자 하는 변수의 값을 Dependent Variable종속변수라고 칭하고, 종속변수들을 설명하는 변수들을 Independent Variable 독립변수라고 부르고, 종속변수와 독립변수의 관계를 도출하는 것을 회귀분석이라 정의합니다. 

보통 회귀분석이라는 말이 어디에서 왔나를 보면 골턴 얘기가 빠지지 않고 나옵니다. 물론 골턴이 발표한 우생학에 근거한 아버지와 아들의 키의 관계에서 골턴이 평균으로의 회귀라는 표현을 처음 썼기 때문에 그럴 수도 있겠지만, 평균으로 돌아간다는 말(Regression toward the mean)과 우리가 실제로 하는 선형 모델을 만드는 것이 잘 안 와닿는 것이 사실입니다. 실제로도 같은 의미가 아니고요. 

일단 골턴이 주장한 내용을 보면 유전학을 연구하던 중 - 실은 키보다도 Sweet Pea의 무게를 부모와 자식의 관계로 접근을 먼저하긴 했습니다만 -  아버지와 아들의 키에 대한 데이터를 접하게 되었는데, 대체로 아버지가 크면 아들도 크고 아버지가 작으면 아들도 작은 경향이 있어 보였죠. 이러한 관계 자체는 그전부터 모든 사람들이 당연히 그렇다고 여기는 것이었지만, 골턴은 세대가 지나면서 키가 큰 아버지의 아들이 키가 크지만 아버지보다는 작아지는 경향이 있고, 키가 작은 아버지의 아들은 키가 작지만 아버지보다는 커지는 경향이 있어서 아들의 키는 전체의 키 평균에 가까워져서 전체 평균에 회귀 Regress 하는 현상에 관심을 가졌습니다. - 사실 그렇지 않으면 시간이 흐를수록 키가 ∞로 발산하거나, 0으로 수렴했을 것입니다 - 실제로는 여기까지가 회귀에 대한 얘기입니다. 

어쨌거나 아버지의 키로 아들의 키를 예측할 수 있지 않을까 하는 생각에 도달했던 것 같습니다. 그래서 아들의 키 = a•아버지의키 +b의 형태로 예측을 시도했는데, 당연히 오차가 있겠지만, 그런대로 그럴듯하게 예측 가능했다는 그렇고 그런 얘기입니다. 이 부분이 현재의 회귀분석이라는 불리는 부분과 걸맞은 부분입니다. 그러니까 실제로 지금 불리는 회귀와 원래 뜻의 회귀는 조금 다릅니다. 어쨌든 이러한 관계식을 통계에 적용하는 행위를 회귀라고 부르고 있습니다.

그러니까, 평균으로의 회귀인 Regression효과와 y=ax+b가 어째서 같은 의미로 사용되는지 알 수 없는 이야기이지만, 이런 Regression(평균으로의 회귀)현상을 알아내던 중, 이 연구결과 중 아버지의 키로 아들의 키를 표현하기 위해 y=ax+b의 관계식을 찾아낸 것뿐이니까 너무 복잡하게 생각하지는 말았으면 합니다.

"그 왜 회귀에 관련된 논문에서 마지막에 썼던 그 방법 있잖아?" 

"아, 그 y=ax+b 그거?" 

"아, 맞아. 그거" 

이런 식으로 대화하다 보니까, 이제까지 흘러와서 앞뒤를 잘라먹고 회귀라는 말만 남은 것입니다. - 라는 킹리적 갓심입니다 -

어쨌든 이제는 Regression이라는 용어가 y=ax+b의 관계식, 즉 추세선을 구하는 것을 자체를 가리키는 것으로 사용하는 분위기가 되었으니, 이것 참 난감하기 짝이 없습니다. 통계용어는 참으로 그 역사를 모르면 정말 어려운 것 아닌가 하는 머리숱이 줄어들만한 얘기입니다. 누군가 만일 대머리가 된다면 이건 모두 통계용어 탓입니다. 

그러니까, Regression이라는 말에 너무 몰입해서 화가 치밀어 오르더라도, - 한국인은 정도껏을 모르거든요. - 느긋하게 생각해 보면 그 또한 일리가 있을 수도 있다고 생각합니다. 

회귀에 대한 것을 느긋하게 생각해 보면, 사실상 '직선 긋기' 와 크게 다르지 않다고 생각합니다. 실제로 직선 긋기가 말이 되는 데이터의 모음이라면 error는 그 직선을 따라 멀리 흩어지지 않고 직선에 가까워지는 형태를 갖기 때문에 회귀라고 부르는 것도 그다지 틀리지 않다고 생각합니다. Residual잔차의 성질을 보면 각 x에서 y의 관측값이 예측값을 중심으로 Gaussian을 이루니까, 데이터들이 추세선을 중심으로 모인다는 정도로 말할 수도 있으니까요.

회귀를 하기전에 오차와 잔차의 차이를 알고 들어가면 좋을 것 같습니다. Error오차와 Residual잔차는 표본분산, 표준오차와의 관계와 비슷한데 - 모집단과 표본에 대한 용어가 나누어져 있지만 통계에서는 이름을 비슷하게 짓는 소질이 천부적인 것 같습니다. 희번득. - 오차는 '모집단'으로부터 만든 회귀식에서 예측값과 실제값의 차이를 오차라고 하고, 잔차는 '표본'으로부터 얻은 회귀식에서 예측값과 실제값의 차이를 잔차라고 하는데, 정확하게 얘기하면 단순화된 회귀모형으로 설명하지 못하는 오차를 말하는 것입니다. 보통 추정 오차 (Estimation Error)와 거의 같은 의미로 사용됩니다. 결국 회귀식을 찾는다는 것은 Data로부터의 잔차의 제곱합을 최소로 만들어주는 식을 찾는다는 것과 같습니다. 이것이 최소제곱법의 정체이고요. 

잔차에 관련하여서는 선형성, 정규성, 등분산성, 독립성, 다중공선성이라는 성질들이 난무하는데, 이건 차차 보기로 하시죠.

확실하게 짚고 넘어가야 하는 것은 회귀분석의 결과가 인과관계를 증명하지 않습니다. 인과관계를 전제로 하여 모델을 구현할 수는 있습니다. 

어쨌든 회귀가 통계의 꽃이라는 말을 많이들 하는데, 그 이유는 여러변수의 관계를 선형 모형을 설명이 가능하고, 이제까지 살펴보았던 검정 등을 활용하여 선형 모형을 검정이 가능하기도 합니다. 그냥 보기에는 이게 뭔가 싶지만  실은 통계 종합 선물세트이긴 합니다. 

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -