차이와 차별에 대한 통계학적 논증

(1)

알기 쉬운 연구방법론

해체기법(Decomposition Method):

차이와 차별에 대한 통계학적 논증

이성우｜서울대학교 농경제사회학부 교수

차이와 차별에 민감한 사회

단체, 사회, 지역, 국가-사람이 속해서 살아가는 집단은 그 규모와 구성의 복잡성을 떠나 언제나 다양성이 존재한다. 동일한 집단 내에도 서로 다 른 배경과 목표 그리고 생활방식 등 수많은 구성 조합은 언제든 파악 가능하다. 누군가는 이러한 다양성의 풀을 일컬어 사회적 진화를 위한 아름다 운 조성이라고 일컫기도 하였다. 그러나 차이 (difference)에 대한 사회적 포용력이 언제나 너그 러운 것만은 아니다. 특히, 차별(discrimination)이 라는 단어가 가지는 어감은 대부분 부정적으로 느 끼는 것이 사실이다. 우리는 우리가 원하든 원하 지 않든 차이나 차별에 민감한 사회를 살고 있다.

매해 집계되는 통계청의 자료가 공개된 지 얼마되 지 않아 남녀급여 수준의 차이, 지역 간 생산성의 차이, 연령에 따른 이혼율의 차이 등은 이미 식상

한 기사거리 수준을 넘어선 듯하다. 좀 더 자극적 인 주제들도 쉽게 접할 수 있다. 서울 강남과 강북 의 학력 수준 차이, 정규직과 비정규직 간 급여 차 이, 빈부격차, 영남과 호남의 고위 공무원직 진출 비율 차이 등등.

이렇듯 민감한 주제를 너무나 자주 접해서일 까? 우리 사회는 이러한 사회적 차이 또는 차별의 실재에 대해 이미 존재하고 있는 것으로 가정하는 경우가 많다. 특히, 사회적으로 큰 이슈가 되고 있 는 문제들을 다루는 경우, 이러한 가정은 종종 이 미 사실(fact)의 영역을 넘어 논거(basis)로서 활 용되기도 한다. 만약, 이러한 논거가 정책적 시혜 와 비시혜를 나누는 기준이 된다면 크게 다음의 세 가지가 논쟁의 핵심이 된다. 첫째, 인식된 차이 나 차별이 (통계적으로) 유의미 한 것인가? 둘째, 유의미하다면 그 원인은 어디에 있는 것인가? 셋 째, (만약 존재한다면) 차이나 차별이 문제되지

(2)

역이 다른 지역에 비해 국가 정책적 측면에서 보 다 더 차별 받은 지역임을 내세우고 있다. 여성단 체들은 양성평등 실현을 위한 정책적 제안을 지속 적으로 제기하고 있다. 심지어, ‘빈부의 난쟁이 행렬’의 상위 20%에 속할 것만 같은 강남구에는 종합부동산세와 관련한 다음의 문구가 걸려 있다.

‘정부는 역차별 정책 종부세를 폐지하라!’

사회학에서는 차이나 차별에 의한 갈등은 일반 적으로 사회발전을 저해하고 있는 것으로 기술된 다. 일부 갈등의 긍정적 기능에 대한 논의는 일단 차치하고 차이나 차별에 대한 높은 사회적 민감도 는 현상에 대한 분석조차 쉽게 허락하지 않는 분 위기다. 그러나 현상을 확인하고 원인을 분석한 다음 처방하는 과정은 잘못된 논쟁, 정책에 대한 신뢰의 붕괴 그리고 갈등 심화의 연결고리를 끊어 야 하는 사회 구성원들의 숙명과도 같다. 민감한 만큼 더 정확한 진단방법이 절실하다. 이러한 의 미에서, 해체기법(Decomposition Method)은 계 량경제모형을 바탕으로 차이와 차별에 관한 세 가 지 논쟁의 핵심을 분석할 수 있는 (비록 제한적이 지만) 통계학적 대안이 될 수 있다.

차이와 차별의 해체

차이와 차별을 기술할 방법은 실로 다양하다. 불 균등도를 제시하는 기술통계는 가장 널리 쓰이는

Coefficient), 집중률(Concentration Ratio: CR),

허핀달 - 허쉬만 지수(Herfindahl-Hirschman

Index) 등 실로 다양하다. 계량경제모형을 응용한

방법에서는 Kuznets 곡선을 추정하기도 하고, 집 단별로 각각 회귀분석하여 그 계수의 크기를 단순 비교하기도 한다. 물론, 이러한 단순 비교라 할지 라도 Independent t-검정(동일한 집단의 시기별 비 교라면 Paired t-검정)이나 X²검정을 통과해야 한 다. 이상의 방법들은 현상을 진단하는 것에는 매 우 유용하다. 차이나 차별이 통계적으로 어떻게 계량화될 수 있는지 정도를 보여주는 방법이다.

세 가지 논쟁의 핵심에서 본다면 첫 번째 물음 정 도의 해답에 해당하는 방법이 된다.

차이나 차별을 말 그대로 해체하기 위해 A와

B

두 사람의 불평등한 달리기 시합을 가정해 보 자. 신체적 조건 등 다른 모든 조건이 일정하다는 조건하에 A는 B보다 100m를 앞서 출발하고 우연 히 A는 평평한 길을, B는 오르막을 달리는 것으 로 가정하자. 달리기 전 A와 B는 자신이 달리는 길이 평평한지 오르막인지를 알지 못한다는 가정 을 추가하자. 물론, 예상한대로 시합의 결과는 A 의 승리다. 그렇다면, 이 시합에서 A가 B를 이길 수 있었던 주요한 원인은 무엇일까? 100m를 앞 서 출발한 것이 주요할 수도 있고, 평평한 길을 달 린 것이 주요할 수도 있다. 물론, 두 가지가 모두 주요할 수 있다. 만약, B가 A였다면 A가 B를 이

(3)

[20]

긴 결과(5분 빨리 골인하는 것과 같은)를 B도 동 일하게 구현할 수 있을까? 이 질문은 차이나 차별 에 대해 단순히 사실을 확인하는 것 이상의 분석 이 요구됨을 단적으로 보여주는 것이다. 달리기 시합이 아니라 앞서 서술한 사회현상이 주요 논제 라면 이 같은 구체적 분석의 필요성은 더욱 절실 하게 느껴질 것이다.

100m를 앞서 달린 A가 B보다 좋은 성적을 내

는 것은 당연하다. 이 같이 특정 집단이 다른 집단 에 비해 유리한 조건에서 좋은 결과를 내는 것을 특성효과(Endowment Effect)라고 한다. 수도권이 가진 좋은 조건(풍부한 노동력과 자본, 잘 정비된 인프라 등등)은 다른 지역보다 높은 생산성을 내 는 것을 설명해주는 요인이다. 반면, 자신이 가진 조건과 관계 없이 결정되는 평평한 길을 달린 A 가 좋은 성적을 내는 것도 타당하다. 이렇듯 본래 주어진 조건과 관계없이 결정된 요인에 의해 성과 가 결정되는 것을 잔차효과(Residual Effect)라고 한다. 평평한 길과 오르막 길은 원래 두 길의 차이 에 의해 발생하는 난이도의 차이가 있으며, 이러 한 차이는 100m를 앞서 달리는 A에 비해 B의 노 력에 대한 부담을 유발한다. 따라서 잔차효과는 차이나 차별의 본질적 차이에 의해 발생하는 직접 적 효과인 상수효과(Constant Effect)와 이들 차이 가 특성효과를 구성하는 변인에 영향을 주어 차이 를 발생시키는 간접적 효과인 계수효과 (Coefficient Effect)로 나눌 수 있다. 국가의 총생 산을 향상시키기 위해 수도권에 유리한 정책을 설 정할 때 정책 자체에 의해서 누려지는 생산성의 우위는 상수효과에 의해 설명되며, 이러한 정책에

의해 다른 지역의 생산여건이 더욱 열악해져 나타 나는 생산성의 차이는 계수효과에 의해 설명된다.

이 용어들이 가지고 있는 어원에서 짐작하듯 이들 효과는 다양한 계량경제모형을 바탕으로 계산 가 능한 효과들이다.

사실, 차이나 차별의 사회현상을 논할 때 보다 중요한 것은 바로 차이나 차별의 원인을 정확히 진단해내는 것이다. 차이나 차별이 존재한다는 현 상 진단은 말 그대로 사실의 확인에 불과하다. 차 이나 차별을 완화시키는 것이 그 사회의 유지에 필요하다면 그 차이나 차별의 원인이 어디에 있으 며, 원인별 비율이 어느 정도인지를 파악하는 것 이 보다 본질적인 요구사항에 해당한다.

해체기법의 구성

해체기법은 Blinder(1973, 1776)와 Oaxaca(1973) 에 의해 각각 독자적으로 제시된 것으로 Blinder-

Oaxaca Decomposition으로 칭하기도 한다. 최초

제안된 모형은 일반선형회귀모형을 OLS로 추정 한 결과를 활용하였으나, Watcher & Mogbolugbe (1992)는 이를 확률모형에 확장하여 MLE를 활용 한 모형에 적용하는 방법을 제안하였다. 설명의 편의를 위해 하성규·이성우(2001), 이성우·임 형백(2003a; 2003b)에서 제시한 모형을 바탕으로 이성우 외(2005)의 설명을 활용하였다. 서울 거 주자 중 영남출신과 호남출신의 주택 자가확률에 대한 지역차별이 실재하는지를 분석하기 위해 다 음과 같은 일반선형회귀식을 고려하여 보자.

(4)

는 i번째 j번째 설명변수

는 오차항( )

<식 1>에서 영남출신(상첨자 Y)과 호남출신 (상첨자 H) 두 집단을 분리하여 회귀식을 구성하 면 다음과 같이 정의할 수 있다.

영남출신: <식 2>

호남출신: <식 3>

위의 <식 2>와 <식 3>을 기대식으로 표현하면,

영남출신: <식 4>

호남출신: <식 5>

<식 4> 및 <식 5>가 기대식으로 표현됨으로써, 자가확률을 이항로짓모형으로 분석할 수 있게 되 었다. 따라서 분석예시에서 사용된 각 모형들은 이항로짓모형을 적용한 것이다. <식 4> 및 <식 5>

의 차를 이용해 <식 6> 및 <식 7>과 같이 쓰면,

<식 6>

<식 7>

을 뜻한다. <식 7>은 <식 6>의 잔차효과를 세분화 하여, 상수효과(Constant Effect)와 계수효과 (Coefficient Effect)로 나뉠 수 있음을 보여준다.

전자는 다른 변수에 의해 설명되지 않는 출신지역 의 차이 그 자체를 의미하므로 직접효과(Direct

Effect)가 되고 후자는 설명변수에 의해 설명되는

출신지역의 차이를 의미하므로 간접효과(Indirect

Effect)가 된다. 앞서 설명한 불평등한 달리기의

예시에서 설명한 어원의 어감은 바로 여기에서 유 래한다.

<식 6>과 <식 7>은 계량경제모형을 바탕으로 하고 있으므로, 통계적 검정을 실시할 수 있다.

Wachter and Mogbolugbe(1992)는 LR검정에 기

반하여 다음의 식을 제안하였다.

: 영남출신 <식 8>

: 호남출신 <식 9>

: 영남+호남(지역더미 없이)

<식 10>

: 영남+호남( 는 정책더미)

<식 11>

: 영남+호남 ( 는 정책더미, 는 Interaction 항)

<식 12>

영남출신과 호남출신 사이의 분산이 동일하지

(5)

[20]

않다면 즉, 이분산성(Heteroscedasticity)이 존재 한다면 두 집단 간의 비교에 따른 통계적 유의성 을 가지지 않으므로, 동분산 가설인 귀무가설

을 검정하면,

<식 13>

<식 13>이 기각되면, 이분산성이 존재하는 모 형으로 일반선형회귀모형이라면 WLS와 같이 이 분산성을 제거한 모형으로 다시 분석되어야 한다.

동분산 가설이 기각되지 않았다면 <식 14>의 잔차 효과검정을 실시할 수 있다.

<식 14>

만약, <식 14>의 잔차효과가 유의미하지 않게 검정되었다면, 상수효과 및 계수효과에 대해 각각 통계적 유의성을 검정해야 한다. 상수효과는 계수 간의 차이에 의한 검정이므로, Wald 검정에 따 라 <식 15>을 적용하여야 한다. 계수효과는 분산 과 계수에 대해 제약을 주고, 절편에 대해서는 제 약을 주지 않은 <식 16>에 의해 계수의 개수 k를 자유도로 하는 검정을 실시하면 통계적 유의성을 검정할 수 있다.

<식 15>

<식 16>

<식 13>에서 <식 15>의 통계적 검정 ~ 는 전

단계의 검정을 통과하지 못하면 후 단계의 검정을 실시할 수 없는 순차검정임에 유의해야 한다.

해체기법의 분석예시

<식 8>에서 <식 12>까지의 모형분석결과는 다음 의 <표 1>과 같다.

<표 1>의 결과를 바탕으로 해체기법의 통계적 검정 결과는 다음과 같다.

검정에서 , 이

므로 동분산 귀무가설이 기각되지 않는다. 검정

에서는 단측검정으로 에 따라 가설

을 기각하지 않으므로 잔차효과의 통계적 유의성 은 없는 것으로 나타났다. 따라서 검정은 실시 할 수 없으며, 상수효과의 검정만을 실시한 에서 는 로 역시 0.1의 유의수준에서 상 수효과가 통계적으로 유의미하다고 할 수 없다.

이항로짓모형을 적용하였으므로 각각의 설명 변수의 구성을 통한 확률을 구성할 수 있고, 이를 분석한 해체기법의 결과는 <표 2>와 같다.

<표 2>를 <식 7>에 적용한 결과는 다음과 같이 계산할 수 있다.

(6)

따라서, 특성효과는 0.0863이며 상수효과는

-1.2354, 계수효과는 1.2677로 영남출신과 호남출

신의 자가에 대한 설명변수의 차이의 크기는

0.1186이 된다. 설명변수를 활용하여 영남출신과

호남출신의 자가확률에 대한 각 설명변수별 기여

<표 2> 확률을 이용한 해체기법 결과

HSIZE 0.3600*** 0.4024*** 0.3674*** 0.3713*** 0.3600***

HTYPE2 1.6238*** 1.527*** 1.5373*** 1.5285*** 1.6238***

HTYPE3 1.3784*** 1.3402*** 1.3589*** 1.3576*** 1.3784***

HONAM -0.0823 1.2355

age_hn -0.0358

marry_hn 0.3020

hsize_hn 0.0424

type2_hn -0.0964

type3_hn -0.0382

Constant -7.4165*** -6.1811*** -6.5537*** -6.5130*** -7.4166***

N 511 774 1285 1285 1285

-2 Log L 521.374 787 1318.916 1319 1309

X² 339.819 491.313 689.769 845.921 831.133

R-Square 0.2921 0.2806 0.2800 0.2802 0.2857

구분 영남 평균확률 호남 영남 평균조건일

경우의 확률 호남

자가확률 0.4286 - 0.4005 0.3644 - 0.3374

차이 - 0.0281 - - 0.0270 -

가설추정치 - 0.4055 - - 0.3447 -

특성효과 - 0.0231 (82.43 %) - 0.0197 (73.14 %)

잔차효과 - 0.0049 (17.57 %) - 0.0073 (26.86 %)

주: **는 P〈.05, ***는 P〈.01

(7)

[20]

도를 계산하면 <표 3>과 같다.

적용분야와 기대

해체기법은 차이와 차별을 통계적으로 분석하고 자 하는 모든 분야에 적용 가능하다. 세 가지 논 쟁의 핵심에서 기술하였듯 통계적으로 유의미한 차이나 차별이 있다면 그 원인이 무엇이며 그 이 상적 수준에 대한 계산까지도 가능하게 해준다.

예시를 적용하여 보면 차이가 발생하는 원인에 따라 통계적 검정을 실시할 수 있고, 각 설명변수 별 차이나 차별에 대한 기여도의 계산 그리고 이 상적 수준에 대한 척도(가설추정치)를 계산할 수 있다. 또한, 차이나 차별이 시기별로 적용되는 분 야에 대한 논의에 응용할 수도 있다. 차이나 차별 은 집단별로 일어나기도 하지만 동일한 집단에 대해 시기별로 발생할 수도 있기 때문이다. 이때 집단의 구별을 의미하는 <식 10>에서 <식 12>의 모형에서 더미변수를 시기별 구별의 더미로 활용 하여 주기만 하면 된다. 보통 전자는 집단별 해체 기법, 후자는 시기별 해체기법으로 지칭한다. 각

해체기법별 적용사례는 다양한 분야에서 이루어 지고 있다. 집단별 해체기법을 응용한 연구는 인 종별 소득수준에 대한 논의로 Blinder(1973,

1976), 인종별 자가 확률에 대한 연구로 Wachter

& Mogbolugbe(1992), 교육, 산업구조 등과 인종

별 남성의 소득관계에 대해서는 Acs &

Danziger(1993), 출신지역별 자가 및 주거밀도의

차이에 대한 하성규·이성우(2001), 이성우·임 형백(2003a; 2003b) 등이 주요 사례다. 시기별

Decomposition에 관해서는 인종별 자가 확률에

대한 1975년과 1994년을 비교한 Yates(2000)를 들 수 있다. 또한, 집단별 해체기법과 시기별 해 체기법을 혼용하여 적용하면 보다 유용한 분석을 실시할 수 있을 것으로 기대된다.

차이와 차별은 사회를 구성하는 구성원의 다양 성에 의해 일어나는 사회현상으로 볼 수 있다. 때 로는 갈등의 원인이 되기도 하며, 일각에서는 사 회 진보의 요인으로 평가하기도 한다. 특히, 정책 의 관점에서 차이나 차별이 다루어질 때에는 사회 적으로 매우 민감한 반응을 일으키기도 한다. 이 렇듯 일상화된 사회현상을 구체적으로 분석할 수

<표 3> 설명변수별 해체기법 기여도

구분 특성효과 백분율(%) 잔차효과 백분율(%) 총변화 백분율(%)

개인

합계 0.0112 12.97 1.3710 108.15 1.3822 102.09

나이 0.0086 10.01 1.5958 125.88 1.6044 118.50

결혼상태 0.0026 2.97 -0.2247 -17.73 -0.2222 -16.41

가구

합계 0.0751 87.03 -0.1034 -8.15 -0.0283 -2.09

가구원수 -0.0492 -57.01 -0.1400 -11.04 -0.1892 -13.97

주택유형 0.1243 144.04 0.0366 2.89 0.1609 11.88

총합 0.0863 100.00 1.2677 100.00 1.3540 100.00

(8)

해당한다. 불균등도를 비롯한 단순 기술통계량에 의존하는 기존의 방법에 대한 훌륭한 보완적 분석 법으로 자리할 수 있을 것으로 판단된다.

참고문헌

이성우·박지영·민성희·윤성도. 2005. 로짓프라빗 모형 응용. 서울: 박 영사.

이성우·임형백. 2003a. “서울 이주자의 출신지별 자가비율격차로 분석 한 지역차별”. 한국인구학 vol. 26. no. 1 pp171-194.

이성우·임형백. 2003b. “표본의 선택성과 출신지별 자가비율 격차”. 국 토연구 vol. 37. no. 2. pp83-97.

이성우·하성규. 2001. “서울 거주자의 출신지역별 자가점유 특성 비교분 석을 통해 살펴본 지역격차와 지역차별”. 한국지역개발학회지 vol.

13, no. 2. pp33-56.

Acs, G. and S. Danziger. 1993. “Educational Attainment, Industrial Structure, and Male Earnings through the 1980s”. The Journal of Human Resources vol. 28, no. 3. pp618-648.

Blinder, A. S. 1976. “On Dogmatism in Human Capital Theory”. The Journal of Human Resources vol. 11, no. 1. pp8-22.

Blinder, A. S. 1973. “Wage Discrimination: Reduced Form and Structural Estimates”. The Journal of Human Resources vol. 8, no. 4. pp436-455.

Oaxaca, R. 1973. “Male-Female Wage Differentials in Urban Labor Markets”. Internation Economic Review vol. 14, no.

3. pp693-709.

Yates, J. 2000. “Is Australia's Home-ownership Rate Really Stable? An Examination of Change between 1975 and 1994”. Urban Studies vol. 32, no.2. pp319-342.