• 검색 결과가 없습니다.

추정모형 및 분석방법

제3절 연구방법론

로 나뉜다.

사건의 발생까지 걸린 시간이 연속적이라고 가정하면 확률변수  (사 건의 발생까지 걸린 시간)의 누적분포함수(cdf : cumulative distribution function)19)는 다음과 같이 정의할 수 있다.

  P r ≤  (1) 또한 위 분포함수에 매칭되는 확률밀도함수(probability density function) 는 다음과 같다.

   



 

 

(2)

누적분포함수의 다른 표현은 생존함수(survivor function)로 다음과 같 이 정의한다.

       P r   (3) 위 생존함수는 시점까지 사건이 발생하지 않을 확률이라고 해석할 수 있다. 연속적인 시간대(time support)에서 사건이 발생한다면 위험률 (hazard rate)을 다음의 조건부 확률로 정의할 수 있다.

 

lim

∆→∆

P r  ≤  ≤   ∆   ≥ 

  

 

(4)

위험률은 시점 직전까지 사건이 발생하지 않았다는 상황이 주어졌을 때 시점에서 사건이 발생할 확률(위험 정도)로 해석할 수 있다. 생존분 석 모형에서 설명변수와 종속변수(가령, 사건의 발생까지의 지속기간)의 관계를 추정할 때 위험률 를 이용할 수 있다. 생존분석에서 해저드 함수를 이용하여 모수를 추정하는 방법을 Hazard Metric이라고 부른 다.20) 비례적 해저드 모형(proportional hazard model)에서 개인(또는 가 구) 의 위험률(hazard rate)은 베이스라인 해저드(baseline hazard)의 비

19) 생존분석에서 는 실패함수(failure function)로 불리기도 한다.

20) 사건 발생까지 걸린 시간(duration)에 대해 로그를 취한 변수를 이용하여 모수를 추정하는 접근법을 Accelerated Failure Time(AFT) Metric이라고 부른다.

율(proportion)로 표시한다.

    (5) 위 식에서  exp와 같이 관찰된 설명변수의 함수로 정의한다.

따라서 각 개인(또는 가구) 의 위험률은 베이스라인 해저드와 개인(또는 가구) 의 특성변수인 에 의존하게 된다. 모수적 접근법(parametric approach)에서는 베이스라인 해저드 에 대해서 지수적 분포함수 (exponential distribution), 웨이블 분포함수(Weibull distribution) 또는 Gompertz 분포를 가정할 수 있다.

본 연구에서 사용하는 KLIPS 자료에서의 혼인상태는 연속적 시점 (continuous time)상에서 관찰되지 않고 매년 특정 조사 시점에서 혼인상 태의 변화만이 관찰된다.21) 또한 조사 시점(년)에서 혼인상태의 변화가 발생하지 않는 우측절단 표본이 나타날 수 있다. 따라서 본 연구에서는 혼인상태의 변화와 조사기간 인터벌의 특징을 고려하여 연속시간 위험모 형 대신 이산시간 위험모형(discrete time hazard model)을 선택한다. 이 산모형에서 개인(또는 가구) 의 위험률은 다음과 같이 정의된다.

  P r    ≤        … (6) 식 (5)와 같이 개인(또는 가구) 의 위험률이 베이스라인 해저드와 

의 함수로 표현될 수 있다고 가정하면, 다음의 식 (7)과 같은 이산형 해저 드 함수를 얻을 수 있다(Jenkins, 2005).

    exp     exp exp′  (7)

위 식에서 ≡  

는 까지의 integrated 베이스 라인 해저드를 의미하며,  log   이다. 식 (7)은 다음과 같 은 보(complementary) 로그-로그 형태의 함수식으로도 표현될 수 있다.

21) 혼인상태 지속기간(duration)을 연속시간으로 간주하고 연속시간 해저드 모형을 추정하는 것도 가능하다.

log log    ′  (8) 이 경우 생존함수(이산형 생존함수)는 다음과 같이 계산할 수 있다.

   P r      

    (9) 이산형 해저드 함수의 모수 추정을 위해서는 , 즉 각 구간 해저드 (interval hazard)에 있어서 기간 의존성(duration dependence)의 패턴을 나타내는 베이스라인 해저드를 가정해야 하는데, 본 연구에서는 (결혼지 속기간)의 선형함수로 가정하였다.22)

본 연구에서와 같이 우측절단이 있는 경우 전체 표본에 대한 로그우도 함수는 식 (10)과 같이 나타낼 수 있다.

log

  

  

log     log   (10)

위 식에서 는 혼인상태 변화에 대한 더미변수로서 다음과 같이 정 의된다.

(1) 우측절단되지 않은 경우(혼인상태 변화(별거 및 이혼)가 발생한 부 부 ) :   for     for  ≠

(2) 우측절단된 경우(혼인상태 변화(별거 및 이혼)가 발생하지 않은 부 부 ) :   for  

또한 부부 의 결혼해체(이혼/별거) 위험률에 영향을 미치는 변수벡터 인 는 시간에 따라 변하는 변수들도 포괄하며, 구체적으로, ① : 부 부 의 문화적 차이를 나타내는 변수들(14세 무렵 성장지 및 부모 교육수 준(연수), 종교, 나이, 교육수준(연수), 재혼 여부의 차이), ②  : 부부  의 년도 혼인상태에 영향을 미치는 기타 변수들(남편 및 부인의 결혼연 령과 남편 실질 근로소득, 남편 및 부인의 부모와의 동거 여부, 가구 실질

22) 구간형 베이스라인 해저드에 대해 각 시간구간별 더미변수를 취하거나 지속기간 ()의 로그 또는 제곱 값을 이용하는 등 다양한 방법이 존재한다.

비근로소득, 자가주택 여부, 미성년 자녀 수, 부인의 취업 여부, 부인 가사 노동분담률의 공평 여부), ③ : 연도별 더미변수 벡터 등으로 구성된다.

연속/이산 생존분석에서 관찰되지 않는 개인(또는 가구)의 이질성 (unobserved individual heterogeneity)을 해저드 함수에 포함할 수 있다.

앞선 모형에서는 개인(가구) 간 관찰된 독립변수만이 해저드에 영향을 준 다고 가정한다. 그러나 현실에서는 관찰되지 않는 이질성이 존재하고 이 것이 해저드에 유의한 영향을 미칠 가능성이 있으며, 이런 경우 이를 적 절히 통제하지 못하면 편향된 분석 결과를 얻을 위험성이 있다. 이러한 위험성을 피하기 위해 관찰되지 않는 개인효과(이질성)를 포함한 모형인 frailty 해저드 모형을 추정하곤 하는데,23) 여기에서 frailty는 사건의 발 생에 영향을 미치는 관찰되지 않는 성향으로 정의할 수 있다(Jenkins 2005). 관찰되지 않는 이질성을 모형에 포함시킬 수 있는 근거는 첫째, 주 어진 데이터의 제약으로 관찰된 독립변수를 충분히 사용할 수 없는 경우 다. 이런 경우 frailty 모형을 추정하면 제외된 변수 편의(omitted variable bias)를 줄일 수 있다. 둘째, 관찰된 설명변수를 대리변수(proxy variable) 로 선택한 경우 측정오차(measurement error)가 존재할 수 있다 (Lancaster, 1990). Jenkins(2005)에 따르면, no-frailty 모형에서는 설명변 수 가 1단위 증가함에 따른 해저드 비율이 일정하다고 가정하지만 이 러한 가정이 적절하지 않을 수 있다. 즉 시간이 증가함에 따라 해저드 비 율이 감소할 수 있다. 또한 no-frailty 모형에서 해저드 비율을 결정하는

가 진정한 해저드 비율을 과소추정(underestimate)할 수 있다. 이러한 점을 고려하여 본 연구에서는 frailty 해저드 모형도 추가적으로 분석한다.

일반적인 연속시간 해저드 모형에서는 위험률(해저드 함수)을 다음과 같이 관찰되지 않는 이질성 를 포함한 모형으로 설정한다. 설명의 편의 를 위해 개인을 나타내는 첨자 를 생략하고 시간에 따라 변하는(time- varying) 특성변수( )가 없다고 가정하기로 하자.

      ×  (11)

23) 개인 간 이질성을 포함하지 않은 모형을 no-frailty 모형이라고도 부른다.

위 모형에서 frailty는 no-frailty 해저드 함수와 곱한 형태로 나타난다. 확 률변수(random variable)인 는 다음과 같은 특징을 가진다(Jenkins, 2005).

i)   

ii)      : 모수 식별을 위해 평균을 1로 정규화(normalize)시킨다.

iii)  

iv) 의 분포는 와  와 서로 독립적이다.

식 (11)의 해저드 함수로부터 생존함수는 다음과 같은 형태가 된다.

         (12) 위 식에 따르면 frailty 요소인 는 생존함수를 리스케일(rescale)하게 된 다. 비례적 해저드 모형에서 frailty 는 식 (13)의 형태로 포함된다.

     exp   exp   (13) 위 식에서   log 이고 평균이 0인 확률변수다. 는 관찰되지 않기 때 문에 직접 추정할 수 없을 뿐만 아니라 표본에 포함된 개인의 숫자만큼  가 존재하기 때문에 자유도 부족으로 그 자체를 추정할 수 없다. 대신  에 대해 분포를 가정하고 분포를 특징짓는 모수를 추정하게 된다.

연속시간 해저드 모형에서 주로 선택하는 의 분포는 감마분포(Gamma distribution)다. 감마분포에서 의 평균은 1 그리고 분산은 

으로 가정 한다. 감마분포 대신 역가우시언 분포(Inverse Gaussian distribution)를 사용할 수도 있다. 역가우시언 분포에서는 평균이 1이고 분산은 로 설정한다. 최우추정법을 통해  자체를 추정하기보다는 분포 모수 (distribution parameter)인 

을 추정하게 된다. 또한   에 대 한 가설검정을 통해 통계적으로 frailty 모형이 유의한지 판단한다.

한편, 이산시간(discrete time) 해저드 모형에서는 frailty 요소가 다음 과 같이 포함될 수 있다.

log log        ′   (14) 위 식에서  는 베이스라인 해저드를 의미하며,   log 이다. 에 대해 감마분포를 가정하면 Meyer(1990)가 제시하였듯이, 다음과 같이 구 체적인 형태의 생존함수를 도출할 수 있다.

     

  log   

  (15) 위 식에서   는 no-frailty를 가정한 생존함수를 의미한다. 모수추 정을 위한 로그우도함수에서  duration을 가지고 우측절단된 표본은

    의 기여도(contribution)를 갖게 되고 번째 구간(interval) 에서 혼인상태의 변화를 갖는 표본은                의 기여도를 갖게 된다.

이산시간 해저드 모형에서는   log 에 대해 평균이 0인 정규분포 를 가정할 수도 있다. 그러나 정규분포 가정 하에서는 생존함수(또는 해저 드 함수)에 대한 구체적인 형태를 도출할 수 없기 때문에 를 integrating out하는 방법으로 로그우도함수를 얻게 된다.

이상과 같이 frailty 요소인 에 모수적 분포함수를 가정하고 추정하는 대신, Heckman and Singer(1984)는 의 분포를 비모수적(non-parametric) 접근법으로 해결하였는데, 본 연구에서는 이 방법을 적용하였다. 의 분 포에 대해 연속적인 모수적 분포함수를 가정하는 대신 이산적 다항분포 (multinominal distribution)를 적용하였다. 부부를 몇 개의 그룹(latent class)으로 나눈 후 사건의 발생(혼인상태 변화-별거/이혼)까지 걸린 시 간(duration)이 그룹(또는 타입) 간 서로 다르다고 가정한다. 이런 경우 구간 위험률(interval hazard rate)은 다음과 같이 쓸 수 있다.

     exp

 exp  ′ 

(16) 위 식에서 는 결혼지속기간을  개 그룹으로 나누어 각 그룹에 따라 다른 상수항을 갖게 됨을 의미한다. 가령   라고 가정하자. 각 그룹에 서 해저드 함수는 다음과 같이 쓸 수 있다.

      exp

 exp  ′ 

for Type 1

      exp

 exp  ′ 

for Type 2 (17) 만약   이라면 두 번째 타입에 속하는 부부에게 더 이른 시간에 혼인상태의 변화가 일어나게 된다. Heckman and Singer 모형에서는 상 수항이 확률변수처럼 변하지만 연속적 분포함수를 따르지 않고 이산적 분포에 의해 결정된다.

결혼지속기간을 갖는 어떤 부부는 Type 1에 속할 수도 있고 Type 2 에 속할 수도 있으며, 이때 각각의 확률을 과 라고 하면    이 된다. 본 연구에서와 같이 우측절단이 있는 경우 이 부부의 로그우도함수 기여(contribution)는 다음과 같이 계산된다.

      (18) 위 식에서

 

   

 

  

  

이고,

 

   

 

  

  

으로 정의된다. 는 부 부 의 우측절단 여부를 나타내는 더미변수로서 우측절단되지 않으면(혼 인상태 변화가 발생하는 경우)  이 된다.

위 예에서는 잠재적 타입을   로 나누었지만 일반적인 형태로

  , 즉 개의 타입으로 나눈다면,  duration을 가진 의 우도함수 기여는 다음과 같이 쓸 수 있다.

  

 (19)

위 식에서

  

 이 되어야 한다. 실증분석에서 잠재적 타입을 몇 개 로 선택해야 하는가의 문제는 미리 결정되지 않는다. 일반적으로   

[그림 3-1] 초기 데이터 구조 예

couple_id divorce mar_duration1

1 1 1 10

2 2 1 2

3 3 0 15

4 4 1 8

⋮ ⋮ ⋮ ⋮

또는   을 선택하는 것을 추천하고 있다.24) 본 연구에서는 두 가지 타입으로 가정하고 분석을 진행하였으며,25) 이혼 위험률에 영향을 미칠 것으로 생각되는 특성변수()에는 no-frailty 이산모형에서와 동일한 변 수들이 포함되었다.

본 연구에서 이산시간 해저드 모형을 모수적 또는 비모수적 접근법으 로 추정하기 위해서는 데이터 구조가 일정한 형태를 가지고 있어야 한다.

우선 각 부부에 대한 혼인상태 변화까지의 기간(duration)을 보여주는 초 기 데이터 구조는 위의 [그림 3-1]과 같다.

couple_id는 부부 아이디이고, divorce 변수는 1이면 우측절단되지 않 은(별거/이혼이 발생한) 경우이고, 0이면 우측절단된(별거/이혼이 발생하 지 않은) 경우다. mar_duration1 변수는 사건의 발생(혼인상태 변화-별거 /이혼)까지 걸린 시간(년)이다.

이러한 부부 단위 자료를 기초로 이산시간 해저드 모형을 추정하기 위 해서는 [그림 3-1]의 데이터 구조를 다음과 같은 부부 - 시점 데이터 - 각 조사시점에서 divorce 변수와 mar_duration1 변화를 각각 표시하는 형태 로 변환해야 한다. 본 연구에서는 이렇게 구성된 [그림 3-2]와 같은 데이 터를 바탕으로 결혼해체에 관한 실증분석을 수행하였다.

24) 최적의 타입 개수를 선택하는 것에 대한 자세한 논의는 Lancaster(1990)를 참고하라.

25) 본 연구에서는 일반적으로 추천되는 타입의 개수(2 또는 3)에 따른 분석 결과 및 모형의 설명력 등에 질적으로 큰 차이가 없어 두 가지 타입을 가정한 분석 결과 만 제시하였다.

[그림 3-2] 부부-시점 데이터 구조 예

couple_id wave divorce mar_duration1

1 1 1 0 8

2 1 2 0 9

3 1 3 1 10

4 2 1 0 1

5 2 2 1 2

6 3 1 0 13

7 3 2 0 14

8 3 3 0 15

9 4 1 0 6

10 4 2 0 7

11 4 3 1 8

⋮ ⋮ ⋮ ⋮ ⋮

제4절 분석 결과