본문 바로가기
표본의 크기 vs 표본의 개수 그리고 정규화 vs 표준화

뜬금없이 정말 헷갈리기 그지없는 용어를 한번 짚고 넘어가면 좋겠습니다.

그러니까 이번에는 정말 정말 짧은 리빙센스 같은 글이라고나 할까요. 그렇긴 하더라도 정말 그지 같은 경우인데, 표본의 크기와 표본의 개수 그리고 정규화와 표준화의 차이입니다. 

먼저 표본수와 표본의 크기를 살펴보겠습니다. 

예를 들어 다음과 같은 표본이 있다고 하면요 

100, 105, 102, 107, 200 

이런 경우에는 표본의 크기가 5입니다. 그런데 표본의 개수는 1입니다. 후후. 어떤가요. 정리하면 표본의 크기는 표본의 element의 개수입니다. 그리고 표본의 수는 이런 표본의 집합이 몇 개인가의 의미입니다. 그러니까, 

{100, 105, 102, 107, 200}
{103, 101, 105, 102, 130}

이런 표본이 있다면 표본의 크기는 5, 표본의 수는 2입니다.  그러니까, 표본이라는 것은 1개의 세트(집합)를 의미한다고 보면 딱 들어맞습니다. 

확실하게 느낌이 왔겠지요? 

그러면 정규화와 표준화는 어떻게 다른 것일까요? 

정규화는 영어로 Normalization, 표준화는 Standardization입니다.라고 영어로 해봤자 별로 도움이 되지 않는군요. 

어쨌든 정규화는 모든 값을 0~1사이의 값으로 만드는 것을 의미합니다. 그러니까 보통은 Min-Max Scaling이 여기에 속합니다. 정규화를 하지 않으면 데이터 Feature마다 크기가 다 달라서 회귀분석 등을 하게 되면 더 큰 값을 가진 데이터가 더 큰 기여를 하는 것처럼 보일 수 있습니다. 

그러면 표준화는 말이죠, 표준정규분포의 속성을 갖도록 데이터를 재조정하는 것을 말하는데요, 그때의 조건은  μ=0, σ=1을 말합니다. 보통 표준점수를 이야기하는데, 우리가 아주 잘 아는 표준화 방법은 $z = \cfrac{x-\mu}{\sigma}$ 로써 Z-score를 만들어서 변환을 하게 됩니다. 그래서 정규화는 0~1 사이의 값을 갖지만, 표준화는 값이 제한되지는 않습니다. 

이게 좀 헷갈릴 수가 있는데, 표준화는 표준편차로 나누는 것이다 라고 생각하면 꽤나 유용하게 기억할 수 있으니 참고해 주세요.

보통 실무적으로는 표준화를 통해 이상치를 제거한 후에 정규화를 하여 상대적 크기에 대한 영향력을 줄인 다음 데이터 분석을 하면 어느 정도 데이터를 다룰 때 나름의 표준을 가지고 분석할 수 있으니 참고하면 좋겠습니다.라고 했지만, 표준화만 해도 좋을 때도 있고, 정규화만 해도 좋을 때도 있으니 그것은 그때그때 상황에 맞추어 접근하면 좋겠습니다. 

이리되었던 저리되었던 무조건 정규화나 표준화는 데이터 분석을 할 때는 꼭 되어야 한다는 점도 꼭 기억해 두세요.

사실 정규분포를 표준정규분포로 변환을 하는 것을 통계에서는 표준화 정규화 두 가지를 구분 없이 normalization으로 부르는 것이 사실입니다. 그 이유는 정규화란 데이터의 범위를 일치시키거나 분포를 유사하게 만들어 주는 등의 작업을 일컫는 말이기 때문입니다. 그래서 데이터를 norm이나 standard로 변환하는 것을 normalize로 퉁쳐서 부르는 경향이 있습니다만, 이번 기회에 정규화와 표준화를 구분할 수 있게 되면 좋겠습니다. 하지만 고백하건데, 사실 모든 걸 normalize라고 부르고 그중에서 0~1로 만드는 것을 Scaling, 표준정규분포로 만들 때를 Standardiztion, 이건 아직 다루지 않았지만 L1, L2 normalization을 Regulariztion이라고 부르는 편이 그냥 덜 헷갈리는 방법이 아닐까 생각하긴 합니다. 이건 제가 이야기 한건 아니고 우리 집 고양이가 이야기했으니, 전 모릅니다. 후후

친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (링크) -