개인적으로 끄적이고 있던 글에서 일부분을 발췌해서 이곳에 옮긴다.


* * * * *


사회이론은 물론 사회를 분석하기 위해 주조된 것이다. 그리고 모든 이론은 대상 그 자체를 있는 그대로 나타내는 것이 아니라, 대상의 특징을 포착하여, 추상하여 서술하는 것이다. 만약 어떤 이론이 대상의 모든 것을 설명해낸다면, 그것은 도리어 아무 것도 설명해내지 못한다. 왜냐하면 그것은 동어반복이기 때문이다. A라는 대상을 A=A라고 표현하는 경우가 있다면, 그것을 두고 우리는 동어반복이라고 부르지 않는가. 하지만 A를 두고 A=aX+b라고 표현한다면, 이것은 하나의 이론이 된다. 사실 이와 같은 표기는 A를 선형방정식으로 표기한 것으로, 회귀분석과 같은 계량모형에서 흔히 활용되는 방식이다. 여기서 A는 X와 선형종속관계를 가지며, a라는 기울기와 b라는 절편을 가진다는 것을 표현한다.


말이 나온 김에 회귀분석의 은유를 좀 더 진행해보자. A=A라는 것은 동어반복일 뿐, 아무 것도 설명하지 않는다. 모든 것을 설명하는 것은 사실 아무 것도 설명하지 못한다. 그렇다면 회귀분석은 어떠한가. Y=aX+u라는 단순회귀분석 모형을 상정해보자. Y는 종속변수고, X는 독립변수, u는 설명하지 못하는 error term이다. Y는 X에 대한 함수, f(X)로 설명할 수 있는 부분과 설명할 수 없는 u로 구성되어 있다. 물론 이 경우 Y절편은 0이므로, 상수항은 존재하지 않고, a는 X와 Y의 관계를 표현하는 기울기를 의미한다(회귀분석의 설명을 덧붙이자면, 실제 값 Y는 회귀분석을 통해서 추정치 Y hat을 얻는다. 물론 Y와 Y hat은 일치하지 않는다. 그리고 u는 알 수 없지만, 회귀분석을 통해 Y hat을 추정하고 남은 잔차, u hat를 얻는다). 그런데 이러한 회귀분석을 하기 위해서는 필요한 가정이 존재한다. 이 가정은 다음과 같다. 1) Linear in Parameters, 2) Random Sampling, 3) Zero conditional mean, 4) Homoskedasticity, 5) Sample Variiance in Explanatory Variables. 


여기서 우리가 주목하는 가정은 5번째 가정이다. 다른 가정들에 대해서 궁금하다면, 통계학 교과서를 보길 바란다. 5번째 가정이 무슨 뜻이냐 하면, 샘플 내에 분산이 존재해야 한다는 것이다. 즉 샘플 X의 분산을 Σ(x_i – x bar)^2라면, 이것이 0이 되어서는 안 된다는 것이다. 왜냐하면 여기서 추정해야 할 파라미터에 해당하는 기울기 a는 X와 Y의 공분산을 X의 분산으로 나눈 것으로, X의 분산이 0이 되면, 분모가 0이 되어 식 자체가 정의되지 않기 때문이다. 이 수학적으로 단순한 사실은 우리에게 사회와 사회이론가 사이의 ‘인지적 간극’을 설명할 좋은 은유가 된다는 것이 나의 생각이다.


샘플 X의 분산이 0이 된다는 사실은, 실제 개별 샘플의 값 X_i와 그것의 평균 X bar가 일치한다는 말이고, 다시 말해서, 모든 X_i가 동일한 값을 가지고, 모형 역시 X_i의 모든 것을 설명한다는 말이다. 그러나 그런 식은 수학적으로 성립할 수가 없다. 모든 것을 설명하는 순간, 어떤 것도 설명할 수 없다는, A=A라는, 동어반복이 떠오르지 않는가.


* * * * *


나는 이것을 두고 은유라고 말했지만, 단순히 은유만은 아니라고 생각한다. 그리고 이것을 귀담아 들어야 할 사람들이 많다고 생각한다.