• 검색 결과가 없습니다.

Ⅴ. 분석 결과

1. 모형 설정을 위한 매칭(matching)

가. 매칭(matching)이란?

본 연구의 분석은 현 대한민국의 저출산 경향의 원인을 이해하고 이와 관련 한 정책을 논의하기 위함이다. 특히 본 연구는 잠재적 부모가 출산에 대한 결정 을 하는 시점에 직면하는 미래의 양육비용이 실제 출산 결정에 미치는 영향을 분석하고자 하는 데에 초점을 맞추는데, 이 분석을 위해서는 두 가지의 데이터 가 필요하다. 첫째로는 출산을 하는 여성과 출산을 하지 않는 여성의 환경에 어 7) Cameron and Trivedi (2005).

떠한 차이가 있는지에 관한 데이터이고, 다음으로는 여성의 육아 환경 및 양육 비용에 관한 정보가 있는 데이터이다. 이러한 목적에 의한 두 가지 데이터로서 여성가족패널조사의 데이터와 아동패널 데이터를 사용한다.

여성가족패널조사(KLoWF)는 대한민국 가임연령 여성을 포함한 성인 여성을 대상으로 여성의 경제활동, 가족생활 및 출산 여부에 대한 자세한 정보를 포함 하고 있다. 여성가족패널은 출산을 경험한 여성과 출산을 경험하지 않은 여성에 관한 데이터가 모두 있기에, 출산 행태에 대한 분석을 위해 이 데이터에 있는 가임연령대 여성에 대한 정보를 활용할 수 있다. 한편, 한국아동패널(PSKC, 이 하 아동패널)은 표본의 설계 상 출산을 경험하지 않은 여성에 대한 관측치는 없 는 반면, 여성의 양육 환경에 대해 더욱 다양한 정보를 제공한다. 따라서 정책 변화에 따른 출산율 변화를 모의실험 시에 해당 패널에 있는 세부적인 보육 관 련 데이터를 활용할 수 있을 것이다.

이를 위해서는 여성가족패널과 한국아동패널 자료를 하나로 묶는 작업이 필 요하다. 보다 정확하게는, 여성가족패널을 주 데이터로 이용하고 아동패널에 있 는 보육 관련 변수들을 여성가족패널에 채워넣기 위해 결측치(missing values) 에 대한 매칭(matching) 기법을 이용한다. 예를 들어 여가패널에 A, B, C라는 변수가 있고 아동패널에 A, B, C, D, E라는 변수가 있을 때, D와 E에 해당하는 변수값을 아동패널에서 여성가족패널에서 관측되는 값으로 채워넣는 것이다. 이 때 여성가족패널에 있는 여성과 아동패널에 있는 여성의 특성을 비교하여 서로 비슷한 환경을 가진 사람을 비교하여 해당 데이터를 가져오고, 이를 위해서 여 러 가지 기법을 이용할 수 있다. 여기서 D, E라는 변수는 보육환경에 관한 변 수가 될 수 있다.

전통적인 매칭 기법 중에는 성향점수(propensity score)를 이용한 최근접 이웃 추정량(nearest neighbor estimator)이나 급수 추정량(series estimator) 등이 있 다. 두 번째 데이터에 있는 변수들을 첫 번째 데이터에 존재하는 정보로 대치하 고자 한다고 해보자. 최근접이웃 추정량 기법은 첫 번째 데이터셋에 있는 각각 의 관측치의 특성에 대해 두 번째 데이터셋에서 가장 성향이 비슷한 관측치를 찾고, 그 관측치의 해당 값을 가져오는 것이다. 급수 추정량 기법은 옮기고 싶 은 변수를 종속변수로 삼은 회귀분석 기법을 이용하여 두 번째 데이터셋에서 첫 번째 데이터셋으로 변수를 옮기는 것이다. 본 연구에서 사용하는 기법은 커 널 매칭(the method of kernel matching)이라고 불리우는 방식으로, 이에 대해

56

아래에서 설명한다.

나. 매칭방법

본 연구에서 사용되는 매칭 기법은 두 자료에 포함된 모든 관측치의 쌍(pair) 에 대해 비(非)유사도를 측정하기 위해 두 관측치 사이의 거리(distance)를 정의 하고, 이렇게 측정된 거리에 특정타입의 분포를 부여한 다음, 쌍으로 묶인 두 관측치 사이의 거리가 멀수록 낮은 가중치를 부여하고, 거리가 가까울수록 높은 가중치를 부여하는 방식이다. 부연하자면, 본 연구에서 출산결정을 분석하기 위 해 기본자료로 사용되는 자료는 여성가족패널인데, 이 자료는 조사설계 상 자녀 의 양육비용에 대한 정보가 충분하지 않다. 반면, 한국아동패널은 출산결정에 대한 분석에는 적절하지 않지만 양육환경 및 양육비용에 대해 매우 상세한 정 보가 포함되어 있다. 따라서 본 연구는 여성가족패널에서는 관측되지 않는 양육 비용에 대한 정보를 한국아동패널에서 끌어와 대치(imputation)하고자 하며, 이 를 위해 두 패널 자료에 포함된 모든 여성들의 쌍에 대해 인구사회학적 거리 (distance)를 측정하고 이를 기반으로 가중치를 계산한 뒤, 한국아동패널의 양육 비용 변수의 가중평균을 여성가족패널에 대치(imputation)한다. 이 때, 여성가족 패널 내 개별 여성은 한국아동패널 내의 모든 관측치에 매칭되며, 각 개개인은 거리(distance)의 측정에 사용되는 인구사회학적 특성에 따라 상이한 가중치 구 조를 갖게 된다.

수학적으로는 아래와 같이 설명이 가능하다. 매치하려고 하는 두 가지 데이 터가 존재하고, 첫 번째 데이터셋의 번째 관측치의 특성 벡터를 , 두 번째 있는 데이터셋의 번째 관측치를의 특성 벡터를 라 했을 때, 번째 관측치와

번째 관측이 사이의 마할라노비스 거리(Mahalanobis distance) 를 이용하여 아 래와 같이 정의하자.8)



 

 

 

 

 

여기서  는 두 데이터 사이의 분산공분산 행렬이다. 이렇게 계산된 거리 의 값이 작으면 작을수록 두 관측치가 서로 가까운(비슷한) 특성을 가진다고 할

8) Mahalanobis (1936).

수 있다. 이 때 분산공분산 행렬  자리에 항등 행렬(identity matrix)을 이용 할 경우 단순한 유클리디안 거리(Euclidean distance)가 된다.

본 연구에서는 여성가족패널 데이터의 관측치와 아동패널 데이터의 관측치 사이에 모든 쌍(pair)에 대해 마할라노비스 거리를 구한 뒤에, 커널 함수를 이용 하여 가중평균을 구하여 변수를 매칭한다. 앞서 정의한 바와 같이 를 첫 번 째 데이터셋의 번째 관측치와 번째 관측치 사이의 거리라고 하자. 이 거리를 아래 식과 같이 정규화(normalize) 한다.

 

 

여기서 와 는 의 평균값과 표준편차이다. 거리 값이 평균과 가까울수 록 값은 0에 가까워짐을 알 수 있다. 이렇게 정규화된 거리 를 이용하여 아래와 같은 에파네치니코프 커널 (Epanechnikov kernel) 함수를 정의하자.

 

  





≤ 

여기서 ≤  는 인덱스 함수로, 의 절대값이 1보다 작을 때 1이고,  의 절대값이 1보다 클 때는 0이다.9) 이 그래프에서 보이듯 값이 0에 가까울 수록(관측치 사이의 마할라노비스 거리가 가까울수록) 커널함수의 값은 커지며,

값이 커질수록 커널함수의 값은 커지고 두 관측치 사이의 거리가 멀 경우에 커널 함수의 값은 0이다.

구해진 에파네츠니코프 커널을 이용하여 다음과 같이 가중치를 계산한다.

  





9) 에파네치니코프 커널 함수의 그래프는 다음을 참고할 수 있다.

http://upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Kernel_epanechnikov.svg/600p x-Kernel_epanechnikov.svg.png

58

이 때 가중치의 합은 1이며, 관측치 사이의 거리가 가까울수록 이렇게 생성 된 가중치가 높아짐을 알 수 있다. 즉, 첫 번째 데이터의 번째 관측치의 특성 벡터 와 두 번째 있는 데이터의 번째 관측치의 특성 벡터 사이의 거리 

가 작으면 작을수록 (즉, 두 관측치의 특성이 유사하면 할수록), 커널함수 값이 커짐에 따라 가중치 는 커지게 된다.

이렇게 생성된 가중치들을 이용하면 아래와 같이 두 번째 데이터에 존재하는

값들의 가중평균을 계산할 수 있다. 예를 들어 첫 번째 데이터셋에 있는 관 측치 에 D라는 새로운 변수를 생성하고 변수값을 매칭하고자 한다고 하자. 첫 번째 데이터셋의 번째 관측치에 변수값을 매칭하려 할 때 두 번째 데이터셋의

번째 관측치에 할당하는 가중치를 라 하자. 그러면 값들의 가중평균은 아 래와 같이 계산될 수 있다.

  

  

첫 번째 데이터의 번째 관측치의 입장에서 보면 이 가중평균값은 자신과 유 사한 관측치에 큰 가중치를 주고, 덜 유사한 관측치에 작은 가중치를 주는 방식 으로 계산된 것임을 알 수 있다. 따라서 이렇게 생성된 가중평균값으로 첫 번째 데이터에 존재하지 새로운 변수 D의 번째 관측치를 대치(imputation)함으로써 자료의 한계를 얼마간 극복하고자 하는 것이 이 기법의 기본 아이디어이다.

두 번째 데이터 전체의 가중평균값으로 첫 번째 데이터의 결측치를 대치하는 이 기법은 두 번째 데이터에 존재하는 모든 관측치를 대상으로 생성된 것이므 로, 이러한 매칭 방법을 이용할 경우 관측치들의 특성 데이터를 충분히 이용할 수 있다는 장점이 있다. 예를 들어 최근접 이웃 추정량 기법을 이용하여 매칭을 할 때는 관측치의 특성이 비슷한 하나의 관측치만을 이용하게 된다. 한 개가 아 니라 K개의 최근접 이웃(k-nearest neighbor)을 이용하여 매칭을 하게 될 때도 마찬가지로, 정해진 숫자의 관측치만을 고려하게 된다는 단점이 있는데, 본 연 구에서 사용되는 커널 매칭의 경우 이와 같은 문제를 얼마간 회피할 수 있다는 장점을 갖는다.

본 연구에서 실제로 이용하고자 하는 여성가족패널과 한국아동패널의 맥락으 로 돌아가서 아래의 식을 생각해보자.

표본수 평균 표준편차 최소 최대. T-test KS test

모-연령 0.39

PSKC 2077 31.34 3.72 19 46.00 -29.53 -0.04*

KLoWF 3830 35.19 6.29 18 45.00 5864.79 0.39

모-교육수준 0.00

PSKC 2062 14.28 1.96 0 21.00 16.70 -0.22 KLoWF 3824 13.34 2.23 0 22.00 4710.36 0.22 모-결혼

PSKC 2072 0.01 0.12 0 1.00 -23.19 KLoWF 3830 0.17 0.37 0 1.00 5107.74

  

‧

여성가족패널에 포함된 여성 i 가 직면하는 기대 양육비용

가 자료 상에 관측되지 않으므로, 이를 대신하기 위하여 한국아동패널의 응답자 j 가 직면한 양육비용

를 이용하는데, 이를 위해 여성가족패널 여성 i 와 한국아동패널 응 답자 전체(j=1,2,…,J) 사이의 인구사회학적 거리(distance)를 각각 측정하고, 이에 기반하여 모든 가능한 (i, j) 쌍에 대해 가중치 를 계산한 다음, 한국아동패널 전체에 대해 계산된

의 가중평균 

를 여성가족패널에서는 관측되지 않는

를 대신하여 사용한다. 앞 절에서 언급했듯이 본 연구에서 거리(distance)는 마할라노비스 거리(Mahalanobis distance)에 따라 정의되며, 가중치를 계산하기 위한 커널은 에파네치니코프 (Eapnechnikov) 커널을 이용한다.10)11) 그리고 이렇 게 생성된 

와 여성가족패널에 존재하는 여성 i의 실제 출산 행태에 대한 정

를 대신하여 사용한다. 앞 절에서 언급했듯이 본 연구에서 거리(distance)는 마할라노비스 거리(Mahalanobis distance)에 따라 정의되며, 가중치를 계산하기 위한 커널은 에파네치니코프 (Eapnechnikov) 커널을 이용한다.10)11) 그리고 이렇 게 생성된 

와 여성가족패널에 존재하는 여성 i의 실제 출산 행태에 대한 정

관련 문서