확률변수의 기본 (3) 분산과 공분산의 정의와 그 의미

Amorest 2018. 7. 13. 22:36

이번에는 분산입니다. 분산이라 하는 데이터의 의미는 어떠한 실험 혹은 자료로부터 그 결과가 reliability 한가 라는 것을 알아보기 위한 것입니다. 예를 들어서 제가 어떤 실험을 계획했을 때 이 실험의 이론적 평균은 m이다 라고 했으면 가장 이상적인 결과는 표본평균 (실험집단으로부터 얻은 평균) 이 m (max validity) 이고 분산이 0 (max reliability) 인 것이죠.

validity & reliability 개념은 아마 대부분의 과학, 공학이론에서 쉽게 만날 수 있을 것이라 생각합니다. 저같은 경우는 인간공학에서의 실험 분석의 경우에서 배우게 되었네요. 혹시 이해가 될 만한 그림을 보고 싶으시다면 이 사이트의 그림을 보시면 이해가 되실 겁니다. 의학 쪽의 같은 개념을 설명하고 있는데 의학적인 내용은 무시하셔도 됩니다.

자 그럼 서론은 여기까지 하고 분산이라는 녀석의 용도를 알았으니 정의를 알아야겠죠.

Var(X)%5Cquad%20%3D%5Cquad%20E%5C%5B%20(X-E%5C%5B%20X%5C%5D%20)%5E%7B%202%20%7D%5C%5D%20%5Cquad%20%3D%5Cquad%20%5Csum%20_%7B%20x%20%7D%5E%7B%20%5Cquad%20%20%7D%7B%20%5Ccombi%20%5E%7B%202%20%7D%7B%20(x-%5Cmu%20)%20%7D%20%7Dp(x)%20

많은 사람들이 저 기댓값 기호 안이 왜 제곱이고 절댓값이 아닌가에 대해 이야기를 합니다. 이에 대한 가장 심플한 답은 '효용성'이라고 하겠습니다. 절댓값을 씌운 계산을 한 것을 '평균편차'라고 부릅니다. 그리고 위의 분산을 구하고 제곱근을 한 것이 '표준편차'이죠.

원래의 의미를 따져보자면 평균편차가 reliability를 나타내는 데 더 정확하다 말할 수도 있습니다. 그러나 이 정보는 계산하기는 표준편차보다 어렵고 정보를 많이 포함하지만 과잉정보라는 것이죠. 무슨 말이냐면, 이렇게 계산한 평균편차는 다른 집단의 표준편차와 비교하여 비율을 낼 수 있습니다. 예를 들면 'X의 평균편차는 Y의 평균편차보다 2배 크다. 따라서 reliability도 2배 높다.' 라는 표현이 합당합니다. 이것은 표준편차가 2배라고 하여 reliability에 대해서 2배라고 할 수 없는 것과는 비교되는 부분이죠. 제곱이 되었으니까 알 수가 없습니다.

그러나 그래서 reliability가 2배 높다는 정보를 대체 어디에 써먹겠다는 겁니까? 우리는 이 정보가 필요 없습니다. 따라서 우리가 사용할 정보의 한계 안에서는 (같다, 다르다는 유의미하나 비율을 구하는 것은 무의미하다.) 평균편차와 표준편차가 모두 충분히 합당한 측도인 것입니다. 그럼 계산이 쉬운 것을 사용하지 않을 이유가 없습니다. 따라서 우리는 표준편차를 선호하는 것입니다.

그리고 이렇게 표준편차를 구하는 과정에서 분산을 정의하면 공분산에 대해서도 쉽게 정의할 수 있습니다.

Cov(X%2CY)%5Cquad%20%3D%5Cquad%20E%5C%5B%20(X-E%5C%5B%20X%5C%5D%20)(Y-E%5C%5B%20Y%5C%5D%20)%5C%5D%20%5Cquad%20%3D%5Cquad%20%5Csum%20_%7B%20x%3AP(X)%3E0%2C%5Cquad%20y%3AP(Y)%3E0%20%7D%5E%7B%20%5Cquad%20%20%7D%7B%20(x-%5Ccombi%20_%7B%20X%20%7D%7B%20%5Cmu%20%20%7D)(y-%5Ccombi%20_%7B%20Y%20%7D%7B%20%5Cmu%20%20%7D)p(x%2Cy)%20%7D%20

사실 분산은 X와 X에 대한 공분산이라고 생각할 수 있습니다. 그러나 분산과 공분산은 그 의미가 다릅니다. 분산이 reliability 에 대한 것이었다면 공분산은 correlation에 대한 것입니다. 즉, X와 Y가 얼마나 관계가 있는지를 알아보겠다는 것이죠. 공분산의 정의를 보면 이를 '편차곱'이라고 부르는 것도 무리가 아닌데 (물론 p가 xy plane에서 uniform distribution을 가질 경우), 간단히 생각해보면 Y가 X를 잘 따를 수록 이 값이 크게 나오게 됩니다. 물론 X가 X를 따르는 것보다 Y가 X를 더 잘 따르면 공분산 값은 분산보다 커질 수 있습니다.

http://blog.naver.com/ikek21/220003173213 : 공분산 부연설명

예를 들면, y-E[Y] = 2(x-E[X]) 같은 상황에서는 공분산이 분산보다 큽니다.

이런 면에서 'X를 가장 잘 따르는 것은 X인데 왜 Y가 X랑 다른데도 공분산이 분산보다 크지?' 같은 질문에 공분산으로서는 답할 도리가 없습니다. 더 잘 따른다 거나 덜 따른다 같은 개념은 공분산에서는 쓸 수 없는 개념이라는 것이죠. 그러나 X와 Y에 대해 엄밀하지는 않지만 적당한 측도 즉 경향성을 제공하는 것은 맞으며 (정확하게는 양의 값으로 따른다, 따르지 않는다, 음의 값으로 따른다를 쓸 수 있습니다.), 간편하기 때문에 널리 쓰입니다.

마지막으로 정의와 의미도 알았으니 실제 계산에 들어가봅시다. 저와 여러분의 수준에서 분산을 구하는 가장 써먹기 좋은 방법은 역시 '적률생성함수'를 이용하는 것입니다. 적률생성함수를 두 번 미분하면 제곱평균을 얻을 수 있고, 한 번 미분하면 평균을 얻을 수 있으므로 평균제곱도 구할 수 있습니다. 이를 이용해 (제곱평균)-(평균제곱) 을 계산하여 분산을 얻을 수 있습니다.

이상으로 분산과 공분산의 정의와 의미, 그리고 분산의 가장 써먹기 좋은 계산을 알아보았습니다. 그러나 이 글에서 후에 랜덤 프로세스를 다루게 될 때에 눈에 익으실 식을 잠시 소개하고자 합니다.

이것의 의미를 설명하자면, X의 분포가 X_i 분포들의 합으로 나타내어지고 Y의 분포 또한 그러할 때 각각의 작은 분포들의 공분산의 합은 작은 분포들의 합의 공분산과 같다는 것입니다. 또한 이 식으로부터 Y_j = X_j 라는 조건을 덧붙여

를 얻을 수 있는데 여기서 가운데 식과 오른쪽 식이 등식이라는 것은 이후 ACS (autocorrelation sequence) 에서 디랙-델타 함수와 함께 다시 보게 될 것입니다. 저기 j ≠ i 라는 식이 바로 디랙-델타 함수가 들어가는 여지가 되는 것이죠.

다음 글은 합성곱에 대해 알아보겠습니다.

저작자표시 비영리 동일조건 (새창열림)