2018, 29
(6)
,1365–1379
가속고장시간모형을 이용한 우중도절단된 생존자료의 분석
†
ᄀ
ᅡᆼ상욱
1
· 김규현2
12연세대학교 응용통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 10ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 16ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 16ᄋ ᅵ ᆯ
요 약
ᄌ
ᅮ ᆫ ᄆ ᅩᄉ ᅮ ᄀ ᅡᄉ ᅩ ᆨ ᄀ ᅩᄌ ᅡ ᆼᄉ ᅵᄀ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄅ ᅩᄀ ᅳᄒ ᅪ ᄃ ᅬ ᆫ ᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄉ ᅵᄀ ᅡ ᆫᄀ ᅪ ᄀ ᅩ ᆼᄇ ᅧ ᆫᄅ ᅣ ᆼᄇ ᅦ ᆨᄐ ᅥᄀ ᅡ ᆫᄋ ᅦ ᄉ ᅥ ᆫᄒ ᅧ ᆼᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄀ ᅡᄌ ᅥ ᆼᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅵ ᆨᄀ ᅪ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄒ ᅧ
ᆼᄐ ᅢᄋ ᅪ ᄀ ᅩ ᆼᄇ ᅧ ᆫᄅ ᅣ ᆼᄋ ᅴ ᄒ ᅭᄀ ᅪᄅ ᅳ ᆯ ᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄌ ᅵ ᆨᄌ ᅥ ᆸᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪᄒ ᅡᄂ ᅳ ᆫᄃ ᅳ ᆼ ᄋ ᅧᄅ ᅥ ᄌ ᅡ ᆼᄌ ᅥ ᆷᄋ ᅦᄃ ᅩ ᄇ ᅮ ᆯ ᄀ ᅮᄒ ᅡᄀ ᅩ Cox ᄆ ᅩ ᄒ ᅧ
ᆼᄋ ᅦ ᄇ ᅵᄒ ᅢ ᄋ ᅮᄌ ᅮ ᆼ ᄃ ᅩᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄃ ᅬ ᆫ ᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦᄂ ᅳ ᆫ ᄉ ᅡ ᆼᄃ ᅢᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄃ ᅥ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄃ ᅬᄋ ᅥ ᄋ ᅪ ᆻ ᄃ ᅡ. ᄀ ᅡᄌ ᅡ ᆼ ᄏ ᅳ ᆫ ᄋ ᅵᄋ ᅲᄂ ᅳ ᆫ ᄒ ᅭᄋ ᅲ ᆯᄌ ᅥ ᆨ ᄋ
ᅵᄀ ᅩ ᄋ ᅡ ᆫᄌ ᅥ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄎ ᅮᄌ ᅥ ᆼᄅ ᅣ ᆼᄋ ᅴ ᄀ ᅨᄉ ᅡ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄀ ᅪ ᄋ ᅵᄅ ᅳ ᆯ ᄀ ᅮᄒ ᅧ ᆫᄒ ᅡ ᆫ ᄉ ᅩᄑ ᅳᄐ ᅳᄋ ᅰᄋ ᅥᄋ ᅴ ᄇ ᅮᄌ ᅢᄋ ᅧ ᆻᄂ ᅳ ᆫ ᄃ ᅦ 2000ᄂ ᅧ ᆫᄃ ᅢ ᄌ ᅮ ᆼ ᄇ ᅡ ᆫᄇ ᅮᄐ ᅥ ᄆ ᅡ ᆭᄋ ᅳ ᆫ ᄇ
ᅡ ᆯᄌ ᅥ ᆫᄋ ᅳ ᆯ ᄋ ᅵᄅ ᅮᄋ ᅥ ᄋ ᅵᄅ ᅥ ᆫ ᄆ ᅮ ᆫ ᄌ ᅦᄀ ᅡ ᄆ ᅡ ᆭᄋ ᅵ ᄒ ᅢᄉ ᅩ ᄃ ᅬ ᆫ ᄉ ᅡ ᆼᄐ ᅢᄋ ᅵᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄀ ᅡᄉ ᅩ ᆨ ᄀ ᅩᄌ ᅡ ᆼᄉ ᅵᄀ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼ, ᄐ ᅳ ᆨ ᄒ ᅵ ᄌ ᅮ ᆫ ᄆ
ᅩᄉ ᅮᄌ ᅥ ᆨ ᄀ ᅡᄉ ᅩ ᆨ ᄀ ᅩᄌ ᅡ ᆼᄉ ᅵᄀ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄐ ᅩ ᆼ ᄀ ᅨᄎ ᅮᄅ ᅩ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄀ ᅳ ᆫ ᄅ ᅢ ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄌ ᅮ ᆼᄉ ᅵ ᆷᄋ ᅳᄅ ᅩ ᄉ ᅡ ᆯᄑ ᅧᄇ ᅩ ᆫ ᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄉ ᅮ ᆫ ᄋ ᅱ-ᄀ ᅵᄇ ᅡ ᆫᄎ ᅮᄌ ᅥ ᆼ, ᄋ ᅮᄌ ᅮ ᆼ ᄃ ᅩᄌ ᅥ ᆯᄃ ᅡ ᆫ, ᄋ ᅲᄃ ᅩᄑ ᅧ ᆼᄒ ᅪ ᆯ, ᄌ ᅢᄑ ᅭᄌ ᅵ ᆸ, ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸ.
1. 서론 새
ᆼ존자료는어떤 사건이 발생할 때까지 걸리는시간 형태의 자료를 통틀어 말한다. 의학과 보건분야 ᄋ
ᅦ서 주로 많이 관측되는 형태의 자료이나 공학, 경제학, 경영학등 다양한 분야에서 관측되고 분석을 피
ᆯ요로 한다. 이러한 생존자료의 가장큰 특징은생존시간 또는고장시간이 우중도절단 (right censor- ing)으로 인해 온전하게관측되지 않을 수 있다는점이다. 생존자료의 분석방법은이러한 불완전한 자 ᄅ
ᅭ의 특징을감안해 발전시켜왔다.
새
ᆼ존자료의 회귀분석을 위해 Cox 비례위험모형 (proportional hazards model)이 가장 널리 사용되 ᄋ
ᅥ왔다 (Cox, 1972). 위험함수 (hazard function)를모형화하는이 모형은추정량이 좋은이론적 성질 으
ᆯ가지고 계산이 용이하다는 등의 여러가지 장점을가지고 있다. 다만 비례위험가정이 만족하지 않을 겨
ᆼ우 추정 결과의 신뢰성이 떨어질 수 있는 등단점이 있다. 이 경우 유용하게 사용할 수 있는여러 대안 ᄆ
ᅩ형이 있는데 가속고장시간모형 (accelerated failure time model)도 그 중하나이다.
ᄀ
ᅡ속고장시간모형은로그화된 생존시간과 공변량사이에 선형관계를가정한다. 연속형 반응변수의 회 ᄀ
ᅱ분석에 주로 사용하는선형회귀모형과 유사한 형태이여서 직관적으로 이해하기가 쉽다. Cox 비례위 ᄒ
ᅥᆷ모형과는달리 공변량의 효과를생존시간에 대해서 직접적으로 해석하는것이 가능하다는장점도 있 ᄃ
ᅡ. 오차항에 대한 모수분포를가정하는 모수 가속고장시간모형은 신뢰성이론분야에서도 흔히 사용된 ᄃ
ᅡ (Moon 등, 2015a, 2015b). 오차항에 대해 특정한 모수분포를가정하지 않는 준모수 (semiparamet- ric)가속고장시간모형은 Cox모형과 함께 준모수 모형의 유연성을 공유한다. 모형의 적합은 순위-기반
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2017ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅭᄋ ᅲ ᆨ ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅵ ᆷ (No.
2017R1A2B4005818).
1
(03722) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄋ ᅧ ᆫᄉ ᅦᄅ ᅩ 50, ᄋ ᅧ ᆫᄉ ᅦᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄉ ᅡ ᆼᄀ ᅧ ᆼᄃ ᅢᄒ ᅡ ᆨ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (03722) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄋ ᅧ ᆫᄉ ᅦᄅ ᅩ 50, ᄋ ᅧ ᆫᄉ ᅦᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄉ ᅡ ᆼᄀ ᅧ ᆼᄃ ᅢᄒ ᅡ ᆨ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ. ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
E-mail: [email protected]
(rank-based)추정법 (Prentice, 1978)이나 최소제곱법 (Buckley와 James, 1979)등을 주로 이용하며 ᄎ
ᅮ정량의 이론적인 성질이 엄밀하게 규명되었다 (Tsiatis, 1990; Ying, 1993).
ᄋ
ᅵ런 여러 장점에도 불구하고 Cox 모형에 비해서 실제 생존자료의 분석에 잘 사용되지 않았다. 중 ᄃ
ᅩ절단이 존재하는 생존자료의 경우 특히 준모수 가속고장시간모형의 적합에 많은어려움이 존재했다.
ᄋ
ᅵ론적인 발달에 비해 모수 추정량과 추정량의 분산에 대한 계산이 복잡하기 때문이였다. 아울러 관 ᄅ
ᅧᆫ 알고리즘과 소프트웨어의 부재로 인해 이론과 실제 적용간에 간극이 존재했다. 하지만 2000년대 중 ᄇ
ᅡᆫ 이후로 개발된 획기적인 알고리즘 (Jin 등 2003, 2006a, 2006b)과 유도평활법 (induced smoothing method)등방법론의 발달 (Brown과 Wang, 2005, 2007; Chiou 등, 2014b)그리고 이를구현한 소프트 ᄋ
ᅰ어 (Huang과 Jin, 2007; Chiou 등, 2014c)로 인해근래는간극이 많이완화된상황이다.
ᄇ
ᅩᆫ 논문에서는 가속고장시간모형과 모수추정방법들, 특히 근래 개발된 방법들을 중심으로 살펴보려 ᄒ
ᅡᆫ다. 제 2절에서는모수 가속고장시간모형의 소개와관련된추론과정을간단하게 소개하고, 제 3절에 ᄉ
ᅥ는 일변량자료에 대한 준모수 가속고장시간모형과 관련 모수추정방법을 살펴본다. 제 4절에서는 다 ᄇ
ᅧᆫ량자료와 비임의 표본자료에 대한 준모수적 가속고장시간모형과 관련 모수추정방법을 살펴보고, 제 5절에서는 R소프트웨어에 어떤 추정절차들이 구현되어 있는지 간략하게 소개한다. 마지막으로 제 6절 ᄋ
ᅦ서는그 외 방법들에 대해 살펴보고 결론을제시한다.
2. 모수 가속고장시간모형 ᄋ
ᅮ중도절단이 있는생존자료는다음과 같이 표현한다. T 와 C는각각 기저의 고장시간과 우중절단시 ᄀ
ᅡᆫ을나타낸다. X = min(T, C)는관측시간이며 Z는 p차원 공변량이다. ∆ = I(T ≤ C)는관측시간이 ᄀ
ᅩ장시간이면 1, 우중도절단시간이면 0을가지는지표함수이다. 고장시간 T 와 중도절단시간 C는 Z가 ᄌ
ᅮ어졌을때 독립이라 가정한다. 한 개체에 대한관측자료는 (X, ∆, Z)로 표현할 수 있다. 표본수가 n인 이
ᆯ변량자료의 경우 i번째 개체에 대한관측치는 (Xi, ∆i, Zi), i = 1, . . . , n이며 독립적이고 동일한 분포 ᄅ
ᅳᆯ따른다고 가정한다.
ᄀ
ᅩ장시간 Ti에 대한 가속고장시간모형은 p차원 공변량 Zi가 주어질 때 다음과 같이 표현한다.
log Ti= β0′Zi+ ϵi, i = 1, . . . , n, (2.1) ᄋ
ᅧ기서 β0는 p차원회귀계수이고 ϵ은 임의의 분포를따르는오차항이다.
ᄆ
ᅩ수적 가속고장시간모형은 (2.1)에서 Ti에 대해 즉,오차항 ϵi에 대해 모수 분포를가정한다. 모수적 ᄀ
ᅡ속고장시간모형의 경우 오차항에 척도 (scale) 모수를명시적으로 추가한 다음의 형태를주로 사용한 ᄃ
ᅡ.
log Ti= β0′Zi+ σϵi, i = 1, . . . , n. (2.2) ᄌ
ᅮ로 사용하는 Ti에 대한 모수 모형과 이에 대응되는 ϵi에 대한 모수 모형을표 2.1에 정리하였다.
Table 2.1 Parametric distributions for T and ϵ
T ϵ
Distribution Survival function Distribution Survival function Exponential(ρ) exp(−ρt) Extreme value (σ = 1) exp(− exp(ϵ))
Weibull(ρ, γ) exp(−ρt
γ−1) Extreme value exp(− exp(ϵ))
Log-logistic(θ, κ) (1 + exp(θ)t
κ)
−1Logistic (1 + exp(ϵ))
−1Log-normal(µ, σ) 1 − Φ(σ
−1(log t − µ)) Normal 1 − Φ(ϵ)
Φ(·): cumulative distribution function of the standard normal random variable
ᄆ
ᅩ형 모수의 추정은 일반적인 최대우도법 (maximum likelihood estimation)을주로 사용한다. T 가 ᄄ
ᅡ르는 모수 분포가 모수 벡터 θ = (β0, σ)′로 규정이 되고 T 의 확률밀도함수 (probability density function)와 생존함수 (survival function)를각각 fT(·; θ)과 ST(·; θ)라 하면 우중도절단이 존재하는생 조
ᆫ자료에 대한 우도함수는 식 (2.3)와 같다:
L(θ) =
n
Y
i=1
fT(xi; θ)∆iST(xi; θ)1−∆i. (2.3)
θ에 대한 점추정량인 최대우도추정량 (maximum likelihood estimator) 식 (2.3)를 최대화하는 θ로 저
ᆼ의된다. 이를 ˆθ라 하자. ˆθ에 대한 점근 공분산은 피셔-정보행렬 I(θ)의 역수 또는 관측 피셔- 저
ᆼ보행렬 ˜I(θ)의 극한값의 역수로 정의된다. 여기서, I(θ) = E[−∂2log L(θ)/∂θ∂θ′]이고 ˜I(θ) =
−∂2log L(θ)/∂θ∂θ′이다. 정칙 (regularity) 조건하에 ˆθ는근사적으로 평균이 θ이고 분산이 I(θ)−1인 저
ᆼ규분포를따르는것이 알려져 있다.
H0: ˆθ = θ0에 대한 가설 검정은다음세 개의 검정 절차를주로 사용한다:
1. 우도비 (likelihood ratio) 검정통계량: 2{log L(ˆθ) − log L(θ0)}.
2. 왈드(Wald) 검정통계량: (ˆθ − θ0)′I(ˆθ)(ˆθ − θ0).
3. 스코어(score) 검정통계량: U(θ0)′I(ˆθ)−1U (θ0).
ᄋ
ᅧ기서 U(θ) = ∂ log L(θ)/∂θ는스코어 함수이다. 이 세 개의 검정통계량은귀무가설이 참일때근사적 ᄋ
ᅳ로 자유도가 dim(θ)인 카이제곱분포를따른다.
ᄆ
ᅩ수 가속고장시간모형에 대한 더 자세한 내용은 Collett (2015), Klein과 Moeschberger (2006), 또 느
ᆫ Kim (2017)등을참조하기 바란다.
3. 일변량자료에 대한 준모수 가속고장시간모형 주
ᆫ모수 가속고장시간모형은 식 (2.1) 오차항 ϵ에 대해 모수 분포를 가정하지 않는다. 일변량자료를 ᄀ
ᅡ정하면 ϵi, i = 1, . . . , n은평균이 0인 독립적이고 동일한 분포를따르고 오차항의 분포함수 F (·)는 특 저
ᆼ한 형태가 없다. 관측자료는 (Xi, ∆i, Zi), i = 1, . . . , n로 나타내며 독립적이고 동일한 분포를따른다 ᄀ
ᅩ 가정하고 Ti와 Ci는 Zi가 주어졌을때 조건부 독립이라 가정한다.
3.1. 점추정 이
ᆯ변량자료에 대한 준모수 가속고장시간모형의 적합에 주로 사용되는 순위-기반 추정법, 최소제곱법 ᄀ
ᅪ 유도평활된 순위-기반 추정법을소개한다.
3.1.1. 순위-기반추정
Yi = log Xi라 하면 ei(β) = Yi− β′Zi는 i번째관측치에 대한 잔차를나타낸다. 준모수 가속고장시 ᄀ
ᅡᆫ모형 (2.1)의 β0를추정하기 위한 가중 순위-기반 추정방정식은아래와 같이 정의된다.
Uϕ(β) =
n
X
i=1
∆iϕ{β; ei(β)}
"
Zi− Pn
j=1ZjI{ej(β) ≥ ei(β)}
Pn
j=1I{ej(β) ≥ ei(β)}
#
= 0, (3.1)
ᄋ
ᅧ기서 ϕ(β, t)는자료에 의존할 수 있고 0과 1사이의 비음의 값을가지는가중치 함수이다. 식 (2.1)의 β0에 대한 해인 ˆβϕ를 β0의 가중 순위-기반 추정량으로 정의한다 (Prentice, 1978). Gehan 형태의 가