• 검색 결과가 없습니다.

Analysis of stage IV rectal cancer with discrete times<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Analysis of stage IV rectal cancer with discrete times<sup>†</sup>"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2019, 30(1),183–192

이산시간을 가지는 직장암 4기 자료의 분석에 관한 연구

ᄋ ᅵ민정1

1강원대학교 경제·정보통계학부 저

ᆸ수 2018년 11월 4일, 수정 2018년 12월 30일, 게재확정 2018년 12월 30일

요 약 새

ᆼ존자료를 분석하기 위한 대부분의 통계적 모형과 방법론들은연속형 생존시간이관측되었다는 ᄀ

ᅡ정을바탕으로 개발되어왔다. 그러나 이산시간이관측될수도 있다. 그런 경우, 이산시간모형을이 ᄋ

ᆼ하여 생존자료를 분석하는것이 적절하다. 본 논문에서는이산시간을가지는생존자료에 대하여 회 ᄀ

ᅱ분석하는방법에관하여 연구하였다. 이산시간모형의 모수를추정하기 위하여 우도함수를이용하 ᄋ

ᅧᆻ고, 이를바탕으로 생존함수를추정하였다. 미국 국립암연구소의 SEER 프로그램에서 제공하는 직 ᄌ

ᅡᆼ암 4기 자료에 이산시간모형을적합하여 직장암 4기환자의 생존율을추정하였다. 적합된모형의 ᄐ

ᅡ당성을검증하기 위하여 calibration 도표와 시간에 의존하는 ROC 곡선 아래 면적을계산하였으 ᄆ

ᅧ, 이를 통해 적합된모형의 타당성을확인하였다.

ᅮ요용어: 이산시간모형, 이산생존함수, 이산위험함수, 직장암 4기.

1. 서론 새

ᆼ존자료의 분석에 적용되는대부분의 연구방법들은연속형 생존시간을바탕으로 개발되어왔다 (Lee ᄃ

ᅳᆼ, 2015). 그러나 실제 많은 자료에서 이산시간들이 관측되고 있다. 예를 들어, 본질적으로 (intrin- sically)이산형인 시간이 관측될 수 있으며, 연속형 생존시간이관측되었으나 그룹화하거나 정수로 반 오

ᆯ림함에 의해 이산형 시간으로 기록될 수 있다. 이산시간을 가지는 생존자료는각 시점에 많은 동점 (ties)을 가질 수 있으며, 이런 특징을 가지는 이산시간 생존자료의 분석에 연속시간모형 (continuous time model)이 사용되어진다면 편향된추정 결과를얻을 수도 있다. 대안책은이산시간모형 (discrete time model)을사용하여 이산시간 생존자료를 분석하는것이다. Cox (1972)는이산위험함수 (discrete hazard function)에 로지스틱 회귀모형을 적합하여 이산시간 생존자료를 분석하는 것을 제안하였다.

Kalbfleisch와 Prentice (1973), Prentice와 Gloeckler (1978)는그룹화된시간을가지는생존자료의 분 ᄉ

ᅥᆨ에 이산시간 비례위험모형 (discrete time proportional hazards model)을제안하였다. 그 외에도 여 ᄅ

ᅥ 연구자들이 이산시간 생존자료를 분석하기 위한 여러 가지 통계적 모형과 방법을제안하였다 (Stew- art와 Pierce, 1982; Singer과 Willet, 1993; Biggeri 등, 2001; Grilli, 2005; Muthen과 Masyn, 2005;

Manda와 Meyer, 2005; Zhao와 Zhou, 2008; Brown 등, 2009; Nguyen과 Gillen, 2012; Joeng 등, 2015).

이 논문은 2017년도 강원대학교 대학회계 학술연구조성비(No. 520170505)와 2016년도 정부 (미래창조과학부)의 재원으로 한국연구재단의 지원을받아 수행된 연구임 (NRF-2016R1C1B1010294).

1 (24341)강원도 춘천시 강원대학길 1, 강원대학교 경제·정보통계학부, 조교수.

E-mail: mlee@kangwon.ac.kr

(2)

보

ᆫ 논문에서는미국 국립암연구소의 SEER (surveillance, epidemiology, and end results) 프로그램 ᄋ

ᅦ서 제공하는 직장암 4기 (stage IV rectal cancer) 자료에 이산시간모형을적합하여관심있는 공변량 ᄀ

ᆹ을가진 직장암 4기환자의 생존율을추정하고, 적합된모형의 타당성을검증하고자 한다.

보

ᆫ 논문의 구성은다음과 같다. 2절에는이산위험함수의 정의와 이산시간모형을소개하고, 이산시간 ᄆ

ᅩ형의 모수 추정방법에 대해 설명한다. 3절에서는 직장암 4기 자료에 대한 설명과 그 분석 결과를 보 ᄋ

ᅧ준다. 4절에서는결론을제시하며 마무리한다.

2. 연구방법

2.1. 이산위험함수와 이산시간모형 ᄋ

ᅥ떤 사건이 발생하기까지 걸린 이산시간을 T라고 하자. 관측된이산시간을 X라고 하면 X는 X = min(T, C)로 정의되며, 0 < x1 < · · · < xm의 값을 가진다고 하자. 여기서 C는 이산중도절단시간 (discrete censoring time)이고, m은이산시간의 지지점들 (support points)의 갯수이다. Z를 p개의 공 ᄇ

ᅧᆫ량들의 벡터라고 하면, 이산중도절단시간 C는 공변량 Z가 주어져 있을 때 이산시간 T 와 독립이라 ᄀ

ᅩ 가정한다. 중도절단 여부를 나타내는 지시자를 δ = I(T ≤ C)라고 하자. 여기서 I(·)는지시함수 (indicator function)이다. 관측된자료는 (Xi, δi, Zi) (i = 1, · · · , n)로 표기할 수 있다. 이산위험함수 ᄂ

ᅳᆫ다음과 같이 정의된다.

λ(xj; z) = P r(T = xj|T ≥ xj, Z = z). (2.1) Cox (1972)는이산위험함수 (2.1)에 다음과 같은로지스틱 회귀모형을제안하였다.

log

 λ(xj; Z) 1 − λ(xj; Z)



= log

 λ0(xj) 1 − λ0(xj)

 + ZTβ, ᄋ

ᅧ기서 λ0(xj)은 xj시점에서 미지의 기저위험함수 (baseline hazard function)이며, β는 p개의 공변량 ᄃ

ᆯ에 대응하는회귀계수들의 벡터이다. 위 모형은비례오즈모형 (proportional odds model)이 되며 공 ᄇ

ᅧᆫ량의 효과는로그 오즈비로 해석된다. αj = logn λ

0(xj) 1−λ0(xj)

o라고 하면, 이산시간 비례오즈모형은 다 ᄋ

ᆷ과 같이 표현된다.

λ(xj; Z) = exp(αj+ ZTβ)

1 + exp(αj+ ZTβ). (2.2) Prentice와 Gloeckler (1978)는 이산위험함수 (2.1)에 다음과 같은 보완적인 로그-로그 모형 (com- plementary log-log model)을제안하였다.

log [− log {1 − λ(xj; Z)}] = log [− log {1 − λ0(xj)}] + ZTβ.

ᅧᆫ속시간 비례위험모형으로부터 생성된 자료의 생존시간을 구간으로 그룹화하면 대응되는이산위험 ᄒ

ᅡᆷ수는위의 모형으로 표현된다. αj = log [− log {1 − λ0(xj)}]라고 하면, 위의 이산시간 비례위험모형 ᄋ

ᆫ다음과 같이 표현된다.

λ(xj; Z) = 1 − expn

− exp

αj+ ZTβo

. (2.3)

(3)

2.2. 이산시간모형의 모수 추정방법 ᄋ

ᅵ산시간모형 (2.2)와 (2.3)의 추론을위해 가능도 함수 (likelihood function)를이용한다. 이산시간 ᄋ

ᅵ관측될때, 가능도 함수는다음과 같다.

L =

m

Y

j=1

 Y

i∈Dj

 λ(xj; zi) 1 − λ(xj; zi)

 Y

i∈Dj∪Rj

( j

Y

l=1

(1 − λ(xl; zi)) )

,

ᅧ기서 Dj는 xj시점에서 사건을 경험하는개체들의 집합을나타내며, Rj는 xj시점에서의 위험집합을 ᄂ

ᅡ타낸다. Dj∪ Rj는 xj시점에서 사건을경험하거나 위험에 처해있는개체들의 집합을 나타낸다. 로 ᄀ

ᅳ 가능도 함수는다음과 같다.

log L =

m

X

j=1

 X

i∈Dj

log

 λ(xj; zi) 1 − λ(xj; zi)



+ X

i∈Dj∪Rj j

X

l=1

log {1 − λ(xl; zi)}

.

Jenkins (1995)이 제안한 이산시간모형을 쉽게 추정하기 위한 방법을적용하기 위하여 δil= I(Xi= xl, δi = 1)를 정의한다. δil는 i번째 개체가 xl시점에서 사건을 경험하면 1, 아니면 0의 값을가진다.

δil를 이용하여 원자료의 구조를 개체가 사건을 경험하거나 또는 중도절단될때까지 각 이산시간에서 ᄀ

ᅵ록을갖는자료의 구조로확장할 수 있다 (Table 2.1 참조). 확장된자료 위에서 로그 가능도 함수는 ᄃ

ᅡ음과 같이 표현된다.

log L =

m

X

j=1

 X

i∈Dj∪Rj j

X

l=1

δillog

 λ(xl; zi) 1 − λ(xl; zi)



+ X

i∈Dj∪Rj j

X

l=1

log {1 − λ(xl; zi)}

=

m

X

j=1

X

i∈Dj∪Rj j

X

l=1

illog λ(xl; zi) + (1 − δil) log {1 − λ(xl; zi)}] . (2.4)

ᅱ의 로그 가능도 함수는 종속변수가 δil인 이항회귀모형 (binary regression model)의 로그 가능도 ᄒ

ᅡᆷ수와 같다.

Table 2.1 Data structures

Original data Expanded data

ID X δ Z ID X δil 1 − δil Z

1 3 1 z1 1 1 0 1 z1

1 2 0 1 z1

1 3 1 0 z1

2 2 0 z2 2 1 0 1 z2

2 2 0 1 z2

Θ = (α1, · · · , αm, β)를이산시간 비례오즈모형 (2.2) 또는이산시간 비례위험모형 (2.3)의 모수벡터 ᄅ

ᅡ고 하면, Θ는로그 가능도 함수 (2.4)를최대로 하는값으로 추정된다. Θ의 최대우도추정량 ˆΘ과 공 부

ᆫ산행렬

cov( ˆc Θ)은 δil를 이용하여확장된자료에 일반화선형모형 (generalized linear model)을 적합 ᄒ

ᅡ여 구할 수 있다. SAS나 R과 같은 통계 소프트웨어를사용하여 일반화선형모형을 적합할 때, 모형 ᄋ

ᅴ 옵션에서 이항분포 (binomial distribution)를지정하고 로짓 함수 (logit function) 또는보완적인 로

(4)

ᅳ-로그 함수 (complementary log-log function)를 연결함수 (link function)로 선택하면 이산시간 비 ᄅ

ᅨ오즈모형 (2.2) 또는이산시간 비례위험모형 (2.3)의 최대우도추정값 ˆΘ과 공분산행렬

cov( ˆc Θ)을구할 ᄉ

ᅮ 있다.

2.3. 이산생존함수 추론 ᄋ

ᅵ산생존함수 (discrete survival function)는다음과 같이 정의되며, 식 (2.1)의 이산위험함수 정의를 ᄋ

ᅵ용하여 다음과 같이 표현된다.

S(xj; z) = P (T > xj|Z = z) =

j

Y

l=1

(1 − λ(xl; z)).

ᅵ산시간 비례오즈모형 (2.2) 또는 이산시간 비례위험모형 (2.3) 아래, 이산생존함수는 다음과 같이 ᄎ

ᅮ정된다.

S(xˆ j; z) =

j

Y

l=1

(

1 − exp( ˆαl+ zTβ)ˆ 1 + exp( ˆαl+ zTβ)ˆ

)

, (비례오즈모형) (2.5)

S(xˆ j; z) =

j

Y

l=1

expn

− exp( ˆαl+ zTβ)ˆo

, (비례위험모형). (2.6)

ᅵ산생존함수 추정량의 분산은 델타방법 (delta method)을이용하여 다음과 같이 추정된다.

dvar( ˆS(xj; z)) = ˆS(xj; z)2 ∂ log S(xj; z)

∂Θ



|Θ= ˆΘcov( ˆc Θ) ∂ log S(xj; z)

∂Θ

T

|Θ= ˆΘ,

ᅧ기서 ∂ log S(xj; z)/∂Θ는 log S(xj; z)를 Θ에 대하여 미분한 벡터이다.

3. 직장암 4기 자료 분석 결과

3.1. 자료 설명 ᄆ

ᅵ국 국립암연구소의 SEER 프로그램에서 제공하는 직장암 4기 자료를 분석에서 사용하였으며, 1996년-2005년 사이에 직장암 4기로 진단받은 66-94세환자들에 대한 자료이다. 생존시간은 진단받은 ᄂ

ᆯ짜와 사망한 날짜를 이용하여 정확하게 계산되었으나, 환자들의 기밀 문제 (issues of confidential- ity)를 피하기 위하여 정확히 계산한 생존시간의 제일 마지막자리를 올림 (ceiling)하였다. 예를 들어, 0.3개월 생존한환자의 생존시간은 1개월로, 3.7개월 생존한환자의 생존시간은 4개월로 올림하여 기록 ᄒ

ᅡ였다. 최대관측시간은 120개월이며, 1,224명의 직장암 4기환자 중 1,039명이 직장암으로 사망하였 ᄀ

ᅩ 나머지 185명의환자들은 중도절단 (censored) 되었다. Table 3.1은 분석에 사용된 공변량들의 특성 으

ᆯ보여준다.

ᅵ혼여부, 글리슨 점수 (gleason score), 진단시 나이, 동반질환점수 (comorbidity score)가 직장암 ᄉ

ᅡ망위험률모형의 공변량으로 사용되었다. 글리슨 점수는 최소 2점에서 최대 10점의 점수를가지며, ᄌ

ᆼ양의 악성도를 판단하는 기준으로 사용된다. 글리슨 점수가 높을수록 종양의 악성도는 높으며, 글 ᄅ

ᅵ슨 점수가 8점 이상이면 위험한 단계라고 한다. 동반질환 점수는 미국의 메디케어 자료 (medicare

(5)

Table 3.1 Data characteristics

Categorical variables n %

Total cases 1,224

Marital status

Married 614 50.16

Single 610 49.84

Gleason score

2-7 873 71.32

8-10 351 28.68

Vital status

Censored 185 15.11

Death from rectal cancer 1,039 84.89

data)와 연결된 SEER 사례에서 파생되었으며, Klabunde 등 (2000)이 개발한 알고리즘을 이용하여 ᄀ

ᅨ산되었다. 직장암 4기 자료에서 동반질환 점수는 0에서 최대 3.212의 점수를 가지며, 모형 적합시 1.5점까지는선형변수로 적합하였고 1.5점보다큰점수들은수평 (flat)으로 적합하였다 (즉, 1.5점보다 ᄏ

ᅳᆫ점수들은 1.5점으로 간주하여 선형변수로 적합하였다). 예비분석 결과, 동반질환 점수를 전체 범위 (0-3.212)에 대해 선형변수로 모형에 적합하면 1.5점보다 높은점수를가지는소수의 사람들 (전체환자 ᄃ

ᆯ의 1.96%)이 기울기에큰영향을미치는것으로 나타났다. 따라서 모형을적합할 때와 생존율을예측 ᄒ

ᅡᆯ 때, 1.5점보다 높은점수는 1.5점으로 간주하였다. 또한 진단시 나이도 같은이유로 인해 90세 이상 ᄋ

ᅴ환자들 (전체환자들의 3.2%)의 나이를 90세로 간주하여 모형을적합하고 생존율을예측하였다.

Table 3.2 Regression parameter estimates, standard errors, and p-values for death from rectal cancer in stage IV under the discrete time proportional hazards model and under the discrete time proportional odds model

proportional hazards model proportional odds model

Covariates βˆ se( ˆβ) p-value βˆ se( ˆβ) p-value

Marital status

Married 0 - - 0 - -

Single 0.337 0.064 <0.001 0.349 0.066 <0.001

Gleason score

2-7 0 - - 0 - -

8-10 0.376 0.069 <0.001 0.387 0.071 <0.001

Age at diagnosis 0.030 0.005 <0.001 0.031 0.005 <0.001

Comorbidity score 0.286 0.092 0.002 0.298 0.096 0.002

3.2. 이산시간모형 적합 결과 지

ᆨ장암 4기 자료에 이산시간 비례오즈모형 (2.2)와 이산시간 비례위험모형 (2.3)을적합하였고, 그 결 ᄀ

ᅪ는 Table 3.2에 정리되어있다. 유의수준 5%에서 두 모형 모두에서 기혼여부, 글리슨점수, 진단시 나 ᄋ

ᅵ, 동반질환 점수가 직장암 사망률에 유의한 영향을미침을알 수 있다. 이산시간 비례위험모형의 회귀 ᄀ

ᅨ수 추정값과 표준오차는이산시간 비례오즈모형의 회귀계수 추정값과 표준오차와 비슷했다. 이는시 ᄀ

ᅡᆫ 간격이 작을수록로지스틱 모형이 비례위험모형으로 수렴하기 때문에 시간 간격이 작으면 작을수록 ᄃ

ᅮ 모형간의 차이는아주 작아지기 때문이다 (Thompson, 1977). 글리슨점수가 8-10점이고 동반질환 ᄌ

ᅥᆷ수가 0.6점인 기혼의 66세 환자의 생존율을 식 (2.5)와 (2.6)을 이용하여 추정하였다. Figure 3.1은 ᄃ

ᅮ 모형으로부터 이환자의 생존율추정값과 95% 신뢰구간을보여준다. 두 모형으로부터 예측한 생존 유

ᆯ과 95% 신뢰구간은서로 거의 비슷했다. 이산시간 비례위험모형에서 공변량들이 비례위험 가정을만

(6)

ᄌ ᅩ

ᆨ하는 지 검토한 결과, 진단시 나이가 비례위험 가정을 만족하지 않았다. 따라서 비례오즈모형을 직 ᄌ

ᅡᆼ암 생존율 예측모형으로 사용하였다. 이산시간 비례오즈모형으로부터 이 환자가 6개월 생존할 확률 (95% 신뢰구간)은 68.71% (63.53%, 73.32%), 1년 생존할확률은 48.82% (42.32%, 55.00%), 2년 생존 ᄒ

ᅡᆯ확률은 27.16% (21.02%, 33.66%)이다.

0 20 40 60 80 100 120

0.00.20.40.60.81.0

Time (Months)

Sur viv al probability

Proportional hazards model 95% CI

Proportional odds model 95% CI

Figure 3.1 Estimated survival probabilities with 95% pointwise confidence intervals for a married patient aged 66 years with gleason score of 8-10 and comorbidity score of 0.6 in stage IV rectal cancer

3.3. 모형 타당성 검증 결과 3.3.1. Calibration 도표

ᅥᆨ합된이산시간 비례오즈모형의 예측 정확도를평가하기 위하여 calibration 도표를 그렸다 (Miller ᄃ

ᅳᆼ, 1993). 10-fold교차검증 (Lee 등, 2012; Lee와 Lee, 2017)을 이용하여 모든환자들에 대하여 t시 ᄌ

ᅥᆷ에서의 생존율을예측하였다. t시점에서 예측한 생존율의 사분위수 (quartile)를이용하여 전체환자 ᄃ

ᆯ을 네 개의 집단으로 나누고, 각 집단에서 t시점에서 예측한 생존율의 평균과 Kaplan-Meier 생존율 (Kaplan과 Meier, 1958)을비교하였다. Figure 3.2의 calibration 도표에서 숫자 1, 3, 5, 7, 10은생존 ᄋ

ᅲᆯ을예측한 시점 (년)을나타내고, 알파벳 a, b, c, d는예측한 생존율의 사분위수를나타낸다. 예를 들 ᄆ

ᅧᆫ, 점 ‘1d’는 1년에서 예측한 생존율들의 4번째 사분위수를, ‘3b’는 3년에서 예측한 생존율들의 2번째 ᄉ

ᅡ분위수를나타낸다. 그림에서 점선은 45도 선을나타낸다. 대부분의 점들이 45도 선 위에 있으므로 ᄌ

ᅥᆨ합한 모형에 기반하여 예측한 생존율들의 평균이 비모수적 생존함수 추정값들과 비슷함을알 수 있다.

ᅵ는적합된이산시간 비례오즈모형이 직장암 4기 자료의 생존율을예측하기 위한 좋은모형임을알 수

(7)

이 ᆻ다.

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.00.10.20.30.40.50.60.7

Mean predicted survival probabilities

Nonparametric survival probabilities

1a

1b

1c

1d

1e

3a 3b

3c

3d

3e 5a 5b

5c 5d

7a5e 7b

7c 7d

7e 10a

10b

10c 10d 10e

Figure 3.2 Calibration plot

3.3.2. AUC(t) 결과 ᄌ

ᅥᆨ합된이산시간 비례오즈모형의 판별적 정확성 (discriminatory accuracy)을검증하기 위하여 시간 ᄋ

ᅦ 의존하는 ROC 곡선 아래 면적 (time-dependent area under the ROC curve; AUC(t))을계산하였 ᄃ

ᅡ (Heagerty와 Zheng, 2005). 10-fold 교차검증을 통하여 전체 환자들에 대하여 t시점에서의 생존율 으

ᆯ예측하고, 이 생존율을 이용하여 t시점에서의 AUC(t)를 계산하였다. Table 3.3에서 AUC(t) 값들 ᄋ

ᅵ 대략 0.7이므로, 이는적합된이산시간 비례오즈모형의 판별적 정확성이 좋음을알 수 있다.

(8)

Table 3.3 AUC(t) over 1, 3, 5, 7, and 10 years

Year AUC(t)

1 0.648

3 0.672

5 0.690

7 0.694

10 0.687

4. 결론 ᄆ

ᅵ국 국립암연구소의 SEER 프로그램에서 제공하는 직장암 4기 자료에서는환자들의 기밀 문제를피 ᄒ

ᅡ기 위하여 생존시간이 이산시간으로 기록되었고, 이산시간을 가지는 직장암 4기 환자들의 생존율을 ᄋ

ᅨ측하기 위하여 Cox (1972)가 제안한 이산시간 비례오즈모형을적합하였다. 적합된이산시간 비례오 ᄌ

ᅳ모형의 타당성을검증하기 위해 calibration 도표와 시간에 의존하는 AUC(t)를계산하였으며, 그 결 ᄀ

ᅪ 적합된이산시간 비례오즈모형이 좋은검정력과 판별력을가졌음을확인하였다.

ᅵ산시간 비례오즈모형 적합 결과, 기혼자보다는미혼자가 직장암 사망 위험률이 높았으며 진단시 고 려

ᆼ의환자일수록 직장암 사망 위험률이 높았다. 글리슨점수가 높을수록, 동반질환 점수가 높을수록 직 ᄌ

ᅡᆼ암 사망 위험률이 높았다. 다른 공변량들에 비해 글리슨점수의 회귀계수가 가장 크므로 직장암 사망 류

ᆯ에 글리슨점수가 가장큰영향을미침을알 수 있었다.

보

ᆫ연구와관련된향후 분석 과제는다음과 같다. SEER 프로그램에서 제공하는 직장암 4기 자료의 새

ᆼ존시간은 원래 정확히 계산되었으나환자들의 기밀 문제를피하기 위하여 월간 생존시간으로 기록되 ᄋ

ᅥᆻ다. 본연구에서는이산위험함수를이용하여 자료를모델링하였기 때문에근본적인 연속시간 (under- lying continuous time)의 위험함수의 관점에서 결과를해석할 수 없다. 근본적인 연속시간에 대한 해 ᄉ

ᅥᆨ이 중요할 경우에는구간 중도절단 자료 (interval censored data) 분석 방법을적용하는것을고려해 보

ᆯ수 있다. 이는 본연구의 향후 연구과제가될 것이다.

References

Biggeri, L., Bini, M. and Grilli, L. (2001). The transition from university to work: a multilevel approach to the analysis of the time to obtain the first job. Journal of the Royal Statistical Society, Series A, 64, 293-305.

Brown, W. J., Steele, F., Golalizadeh, M. and Green, M. J. (2009). The use of simple reparameterizations to improve the efficiency of Markov Chain Monte Carlo estimation for multilevel models with applications to discrete time survival models. Journal of the Royal Statistical Society, Series A, 172, 579-598.

Cox, D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society, Series B , 34, 187-202.

Grilli, L. (2005). The random-effects proportional hazards model with grouped survival data: A compari- son between the grouped continuous and continuation ratio versions. Journal of the Royal Statistical Society, Series A, 168, 83-94.

Jenkins, S. P. (1995). Easy ways to estimate discrete time duration models. Oxford Bulletin of Economics and Statistics, 57, 129-138.

Joeng, K., Chen, M. H. and Kang, W. (2015). Proportional exponentiated link transformed hazards (ELTH) models for discrete time survival data with application. Lifetime Data Analysis, 22, 38-62.

Kalbeisch, J. D. and Prentice, R. L. (1973). Marginal likelihood based on Cox’s regression and life model.

Biometrika, 60, 267-278.

Kaplan, E. L. and Meier P. (1958). Nonparametric estimator from incomplete observations. Journal of the American Statistical Association, 53, 457-481.

(9)

Heagerty, P. J. and Zheng, Y. (2005). Survival model predictive accuracy and ROC curves. Biometrics, 61, 92-105.

Lee, M., Cronin, K. A., Gail, M. H. and Feuer, E. J. (2012). Predicting the absolute risk of dying from colorectral cancer and from other causes using population-based cancer registry data. Statistics in Medicine, 31, 489-500.

Lee, S., Shim, B. and Kim, J. (2015). Estimation of hazard function and hazard change-point for the rectal cancer data. Journal of the Korean Data & Information Science Society, 26, 1225-1238.

Lee, T. and Lee, M. (2017). Analysis of stage III proximal colon cancer using the Cox proportional hazards model. Journal of the Korean Data & Information Science Society, 28, 1-10.

Manda, S. and Meyer, R. (2005). Age at first marriage in Malawi: a Bayesian multilevel analysis using a discrete time-to-event model. Journal of the Royal Statistical Society, Series A, 68, 439-455.

Miller M. E., Langefeld C. D., Tierney W. M., Hui S. L. and McDonald C. J. (1993). Validation of probabilistic predictions. Medicine Decision Making, 13, 49-58.

Muthen, B. and Masyn, K. (2005). Discrete-time survival mixture analysis. Journal of Educational and Behavioral Statistics, 30, 27-58.

Nguyen, V. Q. and Gillen, D. L. (2012). Robust inference in discrete hazard models for randomized clinical trials. Lifetime Data Analysis, 8, 446-469.

Prentice, R. L. and Gloeckler, L. A. (1978). Regression analysis of grouped survival data with application to breast cancer data. Biometrics, 34, 57-67.

Singer, J. D. and Willet, J. B. (1993). It’s about time: using discrete-time survival analysis to study duration and the timing of events. Journal of Educational Statistics, 18, 155-195.

Stewart, W. H. and Pierce, D. A. (1982). Efficiency of Cox’s model in estimating regression parameters with grouped survival data. Biometrika, 69, 539-545.

Thompson, W. A. (1977). On the treatment of grouped observations in life studies. Biometrics, 33, 463- 470.

Vergouwe, Y., Steyerberg, E. W., Eukemans, M. J. and Habbema, J. D. (2002). Validity of prognostic models: When is a model clinically useful? Seminars in Urologic Oncology, 20, 96-107.

Zhao, X. and Zhou, X. (2008). Discrete-time survival models with long-term survivors. Statistics in Medicine, 27, 1261-1281.

(10)

2019, 30(1),183–192

Analysis of stage IV rectal cancer with discrete times

Minjung Lee1

1Division of Economics & Information Statistics, Kangwon National University

Received 4 November 2018, revised 30 December 2018, accepted 30 December 2018

Abstract

In the analysis of survival data, most analysis methods have been developed based on continuous time data. However, discrete event times may be observed. It would be appropriate to use a discrete time model for analyses of such data. In this paper, we studied regression analyses of discrete time survival data. We used maximum likelihood inferences for estimation of the parameters in a discrete hazards model and presented prediction for the discrete survival function. We fitted the discrete time proportional odds model to stage IV rectal cancer data obtained from the Surveillance, Epidemi- ology, and End Results program of the National Cancer Institute and estimated the survival probability for a patient with specific covariate values under the discrete time proportional odds model. We evaluated calibration and discriminatory accuracy of the fitted model using calibration plot and time-dependent area under the ROC curve.

Through these results, we confirmed the validity of the fitted model.

Keywords: Discrete hazard function, discrete time model, discrete survival function, stage IV rectal cancer.

This work was supported by 2017 Research Grant from Kangwon National University (No. 520170505) and Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Science, ICT and Future Planning (NRF-2016R1C1B1010294).

1 Assistant professor, Division of Economics & Information Statistics, Kangwon National University, Chuncheon, 24341, Korea. E-mail: mlee@kangwon.ac.kr

수치

Table 2.1 Data structures
Table 3.2 Regression parameter estimates, standard errors, and p-values for death from rectal cancer in stage IV under the discrete time proportional hazards model and under the discrete time proportional odds model
Figure 3.1 Estimated survival probabilities with 95% pointwise confidence intervals for a married patient aged 66 years with gleason score of 8-10 and comorbidity score of 0.6 in stage IV rectal cancer
Figure 3.2 Calibration plot
+2

참조

관련 문서

According to the result of this study, to do effective nursing that improve health promoting behaviors of early-stage lung cancer patients, nurses should

Multivariable Cox proportional regression by diagnosis year of mental disorders according to diagnosis of cervical cancer ···

The results showed that male bladder cancer patients with urinary diversion experienced various symptoms at the same time, and the identified symptom clusters affected

(Method) The study subjects were 25 cancer patients out of 796 end-stage renal disease (ESRD) patients maintained on hemodialysis or peritoneal dialysis at Chosun

Results: 44 of 1048 patients with gastric cancer(4.1%) had synchronous and metachronous cancers. The average time interval between gastric cancer and secondary primary cancer

 Solution of LTI State Equations.  Solution of Discrete-time

To confirm the actual biological meaning of data obtained through genetic analysis, Litsea japonica fruit the data obtained from the

Results: Poorly differentiated colorectal cancer was frequently located at right colon and in advanced stage.. During follow-up, double primary cancer had occurred