• 검색 결과가 없습니다.

Analysis of stage III colon cancer with missing cause of death<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Analysis of stage III colon cancer with missing cause of death<sup>†</sup>"

Copied!
17
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2021, 32

(

1)

,

135–151

사망원인이 결측된 결장암 3기 자료 분석에 관한 연구

ᄋ ᅵ민정

1

1강원대학교 경제·정보통계학부

ᄌ ᅥ

ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 1ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ

요 약

ᄀ ᅧ

ᆼᄌ ᅢ ᆼᄋ ᅱᄒ ᅥ ᆷᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥ ᄋ ᅵ ᆯᄇ ᅮ ᄋ ᅧ ᆫᄀ ᅮᄃ ᅢᄉ ᅡ ᆼᄃ ᅳ ᆯ ᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄉ ᅡᄀ ᅥ ᆫ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅥ ᆼᄇ ᅩᄀ ᅡ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄃ ᅬᄋ ᅥ ᄋ ᅵ ᆻᄋ ᅳ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅳᄅ ᅥ ᆫ ᄀ ᅧ

ᆼᄋ ᅮ ᄀ ᅧ ᆯᄎ ᅳ ᆨᄃ ᅬ ᆫ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦᄉ ᅥ ᄌ ᅦᄋ ᅬᄒ ᅡᄀ ᅩ ᄋ ᅪ ᆫᄇ ᅧ ᆨᄒ ᅵ ᄀ ᅪ ᆫᄎ ᅳ ᆨᄃ ᅬ ᆫ ᄌ ᅡᄅ ᅭᄆ ᅡ ᆫᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆫ ᄑ ᅧ ᆫᄒ ᅣ ᆼ ᄃ ᅬ ᆫ ᄎ ᅮᄌ ᅥ ᆼ ᄎ

ᅵᄅ ᅳ ᆯ ᄃ ᅩᄎ ᅮ ᆯ ᄒ ᅡ ᆯ ᄈ ᅮ ᆫ ᄆ ᅡ ᆫ ᄋ ᅡᄂ ᅵᄅ ᅡ ᄌ ᅡ ᆯᄆ ᅩ ᆺᄃ ᅬ ᆫ ᄎ ᅮᄅ ᅩ ᆫᄋ ᅳ ᆯ ᄎ ᅩᄅ ᅢᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄉ ᅡᄀ ᅥ ᆫ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄋ ᅵ ᄀ ᅧ ᆯᄎ ᅳ ᆨᄃ ᅬ ᆫ ᄀ ᅧ ᆼᄌ ᅢ ᆼᄋ ᅱᄒ ᅥ ᆷ ᄌ

ᅡᄅ ᅭᄅ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ ᄀ ᅪ ᆫ ᄒ ᅡᄋ ᅧ ᄋ ᅧ ᆫᄀ ᅮᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄀ ᅧ ᆯᄎ ᅳ ᆨᄃ ᅬ ᆫ ᄉ ᅡᄀ ᅥ ᆫ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄋ ᅳ ᆯ ᄎ ᅥᄅ ᅵᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄃ ᅡᄌ ᅮ ᆼ ᄃ ᅢᄎ ᅦ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄉ ᅡ ᄋ

ᆼ ᄒ ᅡᄋ ᅧ ᆻᄀ ᅩ, ᄀ ᅧ ᆼᄌ ᅢ ᆼᄋ ᅱᄒ ᅥ ᆷᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄒ ᅬᄀ ᅱᄆ ᅩᄉ ᅮ ᄆ ᅵ ᆾ ᄂ ᅮᄌ ᅥ ᆨᄇ ᅡ ᆯᄉ ᅢ ᆼᄒ ᅡ ᆷᄉ ᅮᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄆ ᅵᄀ ᅮ ᆨ ᄀ ᅮ ᆨᄅ ᅵ ᆸᄋ ᅡ ᆷᄋ ᅧ ᆫᄀ ᅮᄉ ᅩᄋ ᅴ SEER ᄑ ᅳᄅ ᅩᄀ ᅳᄅ ᅢ ᆷᄋ ᅦᄉ ᅥ ᄌ ᅦᄀ ᅩ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅧ ᆯᄌ ᅡ ᆼᄋ ᅡ ᆷ 3ᄀ ᅵ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅡᄌ ᅮ ᆼ ᄃ ᅢᄎ ᅦ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄀ ᅪ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄇ ᅧ ᆯ ᄇ ᅵᄅ ᅨᄋ ᅱᄒ ᅥ ᆷᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄋ

ᆷ ᄉ ᅡᄆ ᅡ ᆼ ᄆ ᅵ ᆾ ᄃ ᅡᄅ ᅳ ᆫ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫ ᄉ ᅡᄆ ᅡ ᆼᄋ ᅦ ᄋ ᅲᄋ ᅴᄒ ᅡ ᆫ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄆ ᅵᄎ ᅵᄂ ᅳ ᆫ ᄀ ᅩ ᆼᄇ ᅧ ᆫᄅ ᅣ ᆼᄋ ᅴ ᄒ ᅭᄀ ᅪᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄀ ᅩ ᄐ ᅳ ᆨᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄀ ᅩ ᆼᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄀ ᅡ ᄌ

ᅵᄂ ᅳ ᆫ ᄀ ᅧ ᆯᄌ ᅡ ᆼᄋ ᅡ ᆷ 3ᄀ ᅵ ᄒ ᅪ ᆫ ᄌ ᅡᄋ ᅴ ᄀ ᅧ ᆯᄌ ᅡ ᆼᄋ ᅡ ᆷ ᄂ ᅮᄌ ᅥ ᆨᄉ ᅡᄆ ᅡ ᆼᄅ ᅲ ᆯ ᄀ ᅪ ᄃ ᅡᄅ ᅳ ᆫ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫ ᄂ ᅮᄌ ᅥ ᆨᄉ ᅡᄆ ᅡ ᆼᄅ ᅲ ᆯᄋ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅧ ᆼᄌ ᅢ ᆼᄋ ᅱᄒ ᅥ ᆷᄌ ᅡᄅ ᅭ, ᄂ ᅮᄌ ᅥ ᆨᄇ ᅡ ᆯᄉ ᅢ ᆼᄒ ᅡ ᆷᄉ ᅮ, ᄃ ᅡᄌ ᅮ ᆼ ᄃ ᅢᄎ ᅦ ᄇ ᅡ ᆼᄇ ᅥ ᆸ, ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄇ ᅧ ᆯ ᄇ ᅵᄅ ᅨᄋ ᅱᄒ ᅥ ᆷᄆ ᅩᄒ ᅧ ᆼ.

1. 서론 ᄋ

ᅧ러 개의 사망 원인을 가진 암 자료에는 사망 원인을 알 수 없거나 또는 결측된 사망 원인을 가진 화

ᆫ자들의 자료가 포함되어 있을 수 있다. 이와 같은 문제는환자들을 추적 조사하는데 실패하거나 또 ᄂ

ᅳᆫ정확한 사망 원인을 알 수 없거나 또는기타 여러 가지 이유 등으로 발생할 수 있다 (Andersen 등, 1996). 사망 원인이 결측된 자료를 처리하기 위한 가장 간단한 방법은 결측된 사망 원인을가진 환자 ᄋ

ᅴ 자료를 분석에서 제외하는것이다. 즉,사망 원인이완벽히관측된자료만을 분석에서 사용하는것이 ᄃ

ᅡ. 그러나 그런 분석 방법은정보의 손실뿐만 아니라 편향된추정치를도출하고 잘못된추론을초래할 ᄉ

ᅮ도 있다. 따라서 결측된 사망 원인을가진환자들의 자료 또한 분석에 포함해서 적절한 통계 분석법 으

ᆯ이용하여 결측자료를처리하는것이 필요하며, 결측자료 분석에서 가장 많이 사용되는 분석법은다 주

ᆼ대체 방법이다. Lu와 Tsiatis (2001)는결측된사건 원인을가진 경쟁위험자료를 분석하기 위해 다중 ᄃ

ᅢ체 방법을 통해 원인별 비례위험모형의 회귀모수를추정하는방법을 제안하였으며, Lee 등 (2011)은 Lu와 Tsiatis (2001)의 다중대체 방법을 이용하여 원인별 비례위험모형 가정아래에서 누적발생함수를 ᄎ

ᅮ정하는 방법을 제안하였다. Bakoyannis 등 (2010)도 사건 원인이 결측된경쟁위험자료를 분석하기 ᄋ

ᅱ한 다중대체 방법을 제안하였다. 이 외에도 여러 연구자들이 결측된 사건 원인을가진 경쟁위험자료 ᄅ

ᅳᆯ 분석하기 위한 여러 가지 통계적 방법론을제안하였다 (Goetghebeur와 Ryan, 1995; Andersen 등,

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ(ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (NRF- 2018R1D1A1B07041070).

1

(24341) ᄀ ᅡ ᆼᄋ ᅯ ᆫ ᄃ ᅩ ᄎ ᅮ ᆫᄎ ᅥ ᆫᄉ ᅵ ᄀ ᅡ ᆼᄋ ᅯ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅵ ᆯ 1, ᄀ ᅡ ᆼᄋ ᅯ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄀ ᅧ ᆼᄌ ᅦ·ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄇ ᅮ, ᄇ ᅮᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

1996; Tsiatis 등, 2002; Gao와 Tsiatis, 2005; Lu와 Liang, 2008; Hyun 등, 2012; Moreno-Betancur와 Latouche, 2013; Lee 등, 2014; Nicolaie 등, 2015).

ᅩᆫ 논문에서는미국 국립암연구소의 SEER (Surveillance, Epidemiology, and End Results) 프로그 래

ᆷ에서 제공하는결장암 3기 (stage III colon cancer) 자료에 포함된 결측된 사망 원인을가진환자들 ᄋ

ᅴ 자료를처리하기 위해 다중대체 방법 (Lu와 Tsiatis, 2001; Bakoyannis 등, 2010)을적용하고 원인 벼

ᆯ 비례위험모형을적합하여 결장암 사망과 다른 원인 사망에 유의한 영향을미치는 공변량의 효과를추 저

ᆼ하고, Lee 등 (2011)의 방법을적용하여관심 있는 공변량 값을가진 결장암 3기환자의 결장암 누적 ᄉ

ᅡ망률과 다른 원인 누적사망률을추정하고자 한다.

보

ᆫ 논문의 구성은다음과 같다. 2절에서는두 가지 다중대체 방법을소개하고, 사건의 원인이 결측된 겨

ᆼ쟁위험자료에 대해 다중대체 방법을이용하여 원인별 비례위험모형의 회귀모수와 누적발생함수 추정 ᄇ

ᅡᆼ법에 대해 설명한다. 3절에서는 2절에서 소개한 다중대체 추정량의 성능을평가하기 위해 모의실험을 ᄉ

ᅮ행한 결과를보여준다. 4절에서는결장암 3기 자료에 대한 설명과 다중대체 방법과 원인별 비례위험 ᄆ

ᅩ형을적용하여 분석한 결과를보여준다. 5절에서는결론을제시하며 마무리한다.

2. 연구 방법

2.1. 원인별 비례위험모형과 누적발생함수 추정 ᄉ

ᅡ건을 일으키는여러 원인들이 존재하는경쟁위험자료의 분석에서 두 가지 중요한 함수는 원인별 위 ᄒ

ᅥᆷ함수 (cause-specific hazard function)와 누적발생함수 (cumulative incidence function)이며, 이 함 ᄉ

ᅮ들을이용하여 경쟁위험자료를 분석한다. 원인별 위험함수는사건의 각 원인에 대한 위험함수를 뜻하 ᄆ

ᅧ, 누적발생함수는어떤 시간 내에 특정 사건 원인이 발생할 누적확률을 뜻한다. 경쟁위험자료의 연구 느

ᆫ 원인별 위험함수와 누적발생함수를추정하는것을 목표로 하거나 또는경쟁위험모형을 통해 이 두 함 ᄉ

ᅮ에 통계적으로 유의한 영향을미치는 공변량 (covariate)의 효과를추정하는 것을 목표로 한다. 또한 ᄋ

ᅵ 두 함수에 통계적으로 유의한 영향을미치는 공변량을가진 연구대상이 주어진 시간 내에관심의 원 ᄋ

ᅵᆫ 또는경쟁 원인을경험할확률을추정하는것을 목표로 한다.

ᅡ건이 발생할 때까지 걸린 시간을 T라고 하고, 사건의 원인을 ϵ이라고 표기하자. 본 논문에서는사 ᄀ

ᅥᆫ의 원인이 두 가지인 경우를고려하고 (즉, ϵ ∈ {1, 2}),관심 원인을 ϵ = 1, 경쟁 원인을 ϵ = 2로 표기 ᄒ

ᅡᆫ다. p개의 공변량들의 벡터를 Z라고 하자. 공변량 Z가 주어져 있을때, 사건의 원인 k에 대한 원인 벼

ᆯ 위험함수 λk(t; Z)와 누적발생함수 Fk(t; Z)는다음과 같이 정의된다.

λk(t; Z) = lim

△t→0

P (t ≤ T < t + △t, ϵ = k |T ≥ t, Z)

△t , k = 1, 2, Fk(t; Z) = P (T ≤ t, ϵ = k|Z), k = 1, 2.

ᄋ ᅯ

ᆫ인별 위험함수에 공변량이 미치는영향을알아보기 위해 경쟁위험자료 분석에서 가장 많이 사용되 느

ᆫ모형은다음과 같이 각 원인별 위험함수에 비례위험모형 (Cox, 1972)을가정하는 원인별 비례위험모 혀

ᆼ (cause-specific proportional hazards model)이다.

λk(t; Z) = λ0k(t) exp(βkTZ), k = 1, 2, ᄋ

ᅧ기서 λ0k(·)는사건의 원인 k에 대한 미지의 기저위험함수 (unknown baseline hazard function)이며, βk는사건의 원인 k에 대한 p × 1인 회귀모수 (regression parameter)들의 벡터이다. 공변량 Z의 값이

(3)

z로 주어졌을 때, 원인별 비례위험모형 가정아래 누적발생함수를다음과 같이 추정할 수 있다 (Cheng ᄃ

ᅳᆼ, 1998).

Fˆk(t; z) = Zt

0

exp (

2

X

k=1

Λˆ0k(u) exp( ˆβkTz) )

exp( ˆβkTz)d ˆΛ0k(u), k = 1, 2,

ᅧ기서 ˆβk는 βk의 최대부분우도추정량 (maximum partial likelihood estimator)이며, ˆΛ0k(t)는 누적 ᄀ

ᅵ저위험함수 (cumulative baseline hazard function) Λ0k(t) = Rt

0λ0k(u)du에 대한 Breslow 추정량 (Breslow, 1974)이다.

2.2. 결측된 사건 원인을 가지는 경쟁위험자료 ᄋ

ᅮ중도절단시간 (right censoring time)을 C라고 표기하면, 관측시간은 X = min(T, C)로 정의된다.

ᅩᆼ변량 Z가 주어져 있을때, 사건발생시간 T 와 우중도절단시간 C는 독립이라고 가정한다. δ = I(T ≤ C)ϵ라고 정의하면, δ는우중도절단 발생 (δ = 0) 또는관심 원인이나 경쟁 원인의 발생 (δ = 1, 2)을나 ᄐ

ᅡ내는 지시자가된다. 여기서 I(·)는 지시함수 (indicator function)이다. 모든 연구대상들에 대해 사 ᄀ

ᅥᆫ의 원인이 알려진 경우, 관측된자료는 (Xi, δi, Zi) (i = 1, . . . , n)로 표기된다. 그러나 연구대상들 중 이

ᆯ부가 사건의 원인에 결측값을가질 경우, 사건의 원인이 결측되었음을나타내는결측지시자 Ri를정 ᄋ

ᅴ한다. 즉, 사건의 원인이 알려진 경우 Ri = 1이라 하고, 사건의 원인이 결측된경우 Ri = 0이라고 ᄒ

ᅡᆫ다. 중도절단의 발생과 사건의 원인이 결측값을가지는경우는서로관련이 없기 때문에, 중도절단이 ᄇ

ᅡᆯ생한 경우에는 Ri = 1이라고 한다. 연구대상들 중 일부가 사건의 원인에 결측값을가지는경쟁위험 ᄌ

ᅡ료는 (Ri, Xi, Riδi, Zi, Ai) (i = 1, . . . , n)로 표기될수 있다. 여기서 Ai는 원인별 위험함수의 모형에 느

ᆫ사용되지 않지만, 결측체계 (missingness mechanism)를설명하는데 사용될 수 있는보조 공변량 (auxiliary covariates)을나타낸다.

보

ᆫ 논문에서는사건의 원인이 결측값을가질 때, 무작위 결측 (missing at random)을가정한다 (Ru- bin, 1976). 사건의 원인이 무작위로 결측되었다는 뜻은 δi(> 0)와 Wi = (Xi, Zi, Ai)의 정보가 주어 ᄌ

ᅧ 있을때, 사건의 원인이 결측값을가질확률은관측된자료 Wi에만 의존하고, 관측되지 않은 δi에는 ᄋ

ᅴ존하지 않는다는 것을 의미한다. 즉, P (Ri = 0|δi, δi > 0, Wi) = P (Ri = 0|δi > 0, Wi)를 뜻하며, δi(> 0)와 Wi= (Xi, Zi, Ai)가 주어져 있을때 Ri와 δi가 독립임을내포한다.

과

ᆫ심 원인의 발생 여부를나타내는지시자를 D1i = I(δi = 1)라고 하고, 결측된사건의 원인이관심 ᄋ

ᆫ인일확률을 π(Wi) = P (δi = 1|Ri = 0, δi > 0, Wi)라고 하자. 결측된 사건 원인이 있을때, Lu와 Tsiatis (2001)의 다중대체 방법 또는 Bakoyannis 등 (2010)의 다중대체 방법이 사용될수 있다. 다음 저

ᆯ에서는두 가지 다중대체 방법을소개하고, 다중대체 방법을이용하여 원인별 비례위험모형의 회귀모 ᄉ

ᅮ와 누적발생함수를추정하는방법을설명한다.

2.3. Lu와 Tsiatis (2001)의 다중대체 방법 ᄉ

ᅡ건의 원인이 결측되면 D1i도 결측값을 가진다. Lu와 Tsiatis (2001)는 관측된 자료가 주어져 있 ᄋ

ᅳᆯ 때 D1i의 조건부 분포로부터 D1i의 결측값을 대체하는 방법을 제안하였다. D1i는 성공의 확률이 π(Wi) = P (δi = 1|Ri = 0, δi> 0, Wi)인 베르누이 분포를따르며, 성공의확률 π(Wi)는미지의 모수 γ를가지는모수적 모형으로 설정될수 있다. π(Wi)의 모수적 모형으로 log {π(Wi, γ)/(1 − π(Wi, γ))} = γTWi와 같은 로지스틱 회귀모형이 가장 많이 사용된다. 모수 γ의 실제값을 γ0라고 하면, π(Wi) =

(4)

π(Wi, γ0)이다. 사건의 원인이 무작위로 결측되었다는가정아래, 결측된사건의 원인이관심 원인일확 류

ᆯ은다음과 같다.

π(Wi, γ0) = P (δi= 1|Ri= 0, δi> 0, Wi) = P (δi= 1|Ri= 1, δi> 0, Wi).

ᅡ라서 π(Wi, γ0)는사건의 원인이 모두관측된케이스들 (즉, Ri= 1, δi> 0)로부터 추정할 수 있다.

π(Wi)에 대해 설정된 모수적 모형을 π(Wi, γ)라고 하자. 사건의 원인이 모두관측된케이스들에 대해 ᄃ

ᅡ음과 같은우도함수를만들수 있고, 아래 우도함수를최대로 하는최대우도추정량 ˆγ을구할 수 있다.

n

Y

i=1

π(Wi, γ)D1iI(Ri=1,δi>0){1 − π(Wi, γ)}(1−D1i)I(Ri=1,δi>0).

ᅡ건의 원인이 알려져 있는경우 (Ri = 1)에는 D1i의 값이관측되지만, 사건의 원인이 결측된 경우 (Ri = 0)에는 최대우도추정량 ˆγ을 이용하여 성공의 확률이 π(Wi, ˆγ)인 베르누이 분포로부터 0 또는 1을 임의로 생성하여 D1i의 결측값을대체한다. 여기서 생성된값이 1이면관심 원인, 0이면 경쟁 원인 ᄋ

ᅳ로 결측된사건 원인을대체함을의미한다. 이 과정을 m번 반복한다. m번 반복후 얻어진 자료의 각 ᄀ

ᆨ에 원인별 비례위험모형을적용하여 회귀모수 추정치를구하고 Cheng 등 (1998)의 방법을적용하여 ᄋ

ᆫ인별 비례위험모형 하에서 누적발생함수를추정한다. j번째 대체된자료에 원인별 비례위험모형을적 ᄒ

ᅡᆸ하여 구한 사건 원인 k의 회귀모수 추정량 (즉, 최대부분우도추정량)을 ˆβkj라고 하고, 공변량의 값이 z0로 주어져 있을때 j번째 대체된자료에 Cheng 등 (1998)의 방법을 적용하여 구한 누적발생함수 추 저

ᆼ량을 ˆFkj(t; z0)라고 하자. 사건 원인 k의 회귀모수 추정량 ˆβk와 누적발생함수 추정량 ˆFk(t; z0)는다 ᄋ

ᆷ과 같이 m개의 추정량들을평균해서 구한다 (Lu와 Tsiatis, 2001; Lee 등, 2011).

βˆk= 1 m

m

X

j=1

βˆkj, Fˆk(t; z0) = 1 m

m

X

j=1

Fˆkj(t; z0), k = 1, 2.

Rubin (1987)은 다중대체 추정량의 분산 추정량을 계산하는 공식을 제안하였다. 그러나 Rubin (1987)의 분산 추정량 공식은 Lu와 Tsiatis (2001)의 다중대체 방법에 의해 구해진 추정량의 분산 추정 ᄅ

ᅣᆼ을 계산할 때 적용가능하지 않다. Lu와 Tsiatis (2001)의 다중대체 방법에서는최대우도추정량 ˆγ을 ᄋ

ᅵ용하여 계산한 π(Wi, ˆγ)로부터 D1i의 결측값을대체하였고, 이 과정을 m번 반복하였다. 따라서 최 ᄃ

ᅢ우도추정량 ˆγ이 고정되어진 채로 m개의 대치 자료 생성에 사용되어졌다. 이런 경우 Rubin (1987)의 부

ᆫ산 추정량 계산법이 적용된다면 샘플링 분산에 대해 일관성 없는 (inconsistent)추정량이 도출되므로 (Wang과 Robins, 1998), Lu와 Tsiatis (2001)는 Rubin (1987)의 분산 추정량 공식을이용하지 않고 βˆk의 분산 추정량을 직접 유도하였다. Lee 등 (2011)은 Lu와 Tsiatis (2001)의 다중대체 방법과 Cheng ᄃ

ᅳᆼ (1998)의 방법을 적용하여 추정한 ˆFk(t; z0)의 분산 추정량을 직접 유도하였고, ˆFk(t; z0)의 근사적 ᄋ

ᅵ론을 증명하였다. Lu와 Tsiatis (2001)의 다중대체 방법에 의해 추정한 ˆβk의 분산 추정량과 Lee 등 (2011)의 방법에 의해 추정한 ˆFk(t; z0)의 분산 추정량은각각 Lu와 Tsiatis (2001), Lee 등 (2011)을참 ᄀ

ᅩ하길 바란다.

(5)

2.4. Bakoyannis 등 (2010)의 다중대체 방법

Bakoyannis 등 (2010)은 2.3절에서 설명한 최대우도추정량 ˆγ을 이용하여 다음과 같이 D1i의 결측 ᄀ

ᆹ을 대체하는 방법을 제안하였다. 2.3절의 최대우도추정량 ˆγ을 구한 후, 평균이 ˆγ, 분산이 dV ar(ˆγ) (정보행렬의 역행렬)인 정규분포로부터 γ을 생성한다. 사건의 원인이 결측값을 가지면 (Ri = 0), π(Wi, γ) = exp(WiTγ)/1 + exp(WiTγ) 을 계산하여 성공의 확률이 π(Wi, γ)인 베르누이 분포 ᄅ

ᅩ부터 0 또는 1을 임의로 생성하여 1이면관심 원인 발생으로 0이면 경쟁 원인 발생으로 D1i의 결측값 으

ᆯ대체한다. 이 과정을 m번 반복한다. m번 반복후 얻어진 각각의 자료에 원인별 비례위험모형을적 ᄋ

ᆼ하여 사건 원인 k의 회귀모수 추정량 ˆβk와 누적발생함수 추정량 ˆFk(t; z0)을다음과 같이 m개의 추정 ᄅ

ᅣᆼ들을평균해서 구한다.

βˆk= 1 m

m

X

j=1

βˆkj, Fˆk(t; z0) = 1 m

m

X

j=1

Fˆkj(t; z0), k = 1, 2,

ᅧ기서 ˆβkj는 j번째 대체된자료에 원인별 비례위험모형을 적합하여 구한 사건 원인 k의 회귀모수 추 저

ᆼ량 (즉, 최대부분우도추정량)이며, ˆFkj(t; z0)는 공변량의 값이 z0로 주어져 있을때 j번째 대체된 자 ᄅ

ᅭ에 Cheng 등 (1998)의 방법을 적용하여 원인별 비례위험모형 가정 아래 구한 누적발생함수 추정량 ᄋ

ᅵ다. Bakoyannis 등 (2010)의 다중대체 방법에 의해 구해진 추정량의 분산 추정량 계산에는 Rubin (1987)의 분산 추정량 공식이 적용되므로, Rubin (1987)의 분산 추정량 공식을이용하여 ˆβk의 분산 추 저

ᆼ량과 ˆFk(t; z0)의 분산 추정량은다음과 같이 구할 수 있다.

V ar( ˆd βk) = WV ar+ (1 + 1/m)BV ar, V ar( ˆd Fk(t; z0)) = WV ar + (1 + 1/m)BV ar , ᄋ

ᅧ기서 WV ar와 WV ar 는 대치내 (within-imputation) 분산을, BV ar와 BV ar는 대치간 (between- imputation) 분산을의미하며, 구체적으로

WV ar= 1 m

m

X

j=1

V ar( ˆd βkj), BV ar=

m

X

j=1

( ˆβkj − ˆβk)( ˆβkj− ˆβk)T m − 1 ,

WV ar = 1 m

m

X

j=1

V ar( ˆd Fkj(t; z0)), BV ar =

m

X

j=1

( ˆFkj(t; z0) − ˆFk(t; z0))2 m − 1

ᄋ ᅵ다.

Rubin과 Schenker (1991)에 따르면, 사건 원인 k의 l번째 공변량의 회귀모수는 t-분포를 따르는 ᄐ

ᆼ계량 ( ˆβkl − βkl)/

q

V ar( ˆd βkl) ∼ tdf에 기반한다. 여기서 t-분포의 자유도는 df = (m − 1)[1 + WV ar/ {(1 + 1/m)BV ar}2]이다.

3. 모의실험

2절에서 소개한 다중대체 방법에 의해 구해진 추정치의 성능을 평가하기 위하여 모의실험을 수행 ᄒ

ᅡ였다. 공변량 Z는 성공의 확률이 0.5인 베르누이 분포에서 생성하였고, 보조 공변량 A는 표준정 ᄀ

ᅲ분포에서 생성하였다. 사건 원인 1과 사건 원인 2의 기저위험함수를 각각 지수분포와 와이블분포 ᄅ

ᅩ 가정하였고, 각 원인별 비례위험모형은 λ1(t; Z, A) = λ1(t; Z) = α1exp(β11Z), λ2(t; Z, A) =

(6)

α2 θ

 t

θ

α2−1

exp(β21Z + β22A)이다. 여기서 보조 공변량 A는 결측 체계를 설명하기 위해 사용되 느

ᆫ 공변량으로 원인별 비례위험모형에 사용될 필요는 없으므로 λ1(t; Z, A) = λ1(t; Z)라고 가정하였 ᄃ

ᅡ. 위 비례위험모형의 참 모수값은 (α1, β11, α2, θ, β21, β22) = (0.17, 0.5, 1.5, 4, −0.5, 0.2)이다. 사 ᄀ

ᅥᆫ발생시간 T 는 1 − exp

−Rt

0λ1(u; Z)du −Rt

0λ2(u; Z, A)du ᄅ

ᅩ부터 생성하였고, 사건의 원인 ϵ은 서

ᆼ공의 확률이 λ1(T ; Z)/(λ1(T ; Z) + λ2(T ; Z, A))인 베르누이 분포로부터 생성하였다. 중도절단시간 C는 균일분포 U(0, 9.6)로부터 생성하였고, 관측시간은 X = min(T, C)로 구해진다. 위와 같은 설정 ᄋ

ᅦ서 평균적으로 사건 원인 1은 42%, 사건 원인 2는 33%, 중도절단은 25% 발생한다. 결측 지시자 R은 로지스틱 회귀모형 logitP (R = 0|δ > 0, W ) = η1 + η2X + η3Z + η4A으로부터 생성하였고, ᄅ

ᅩ지스틱 회귀모형의 회귀계수 η의 값을 다르게 설정하여 사건의 원인에 20%, 30%, 40%의 결측값 ᄋ

ᅳᆯ 생성하였다. 무작위 결측 가정아래, logitπ(W ) = logλ

1(t;Z,A) λ2(t;Z,A)

이므로 π(W )에 대한 참 모형은 logitπ(W ) = log(α1θα2/α2) − (α2− 1) log(X) + (β11− β21)Z − β22A이며, 첫 번째 모의실험에서는 π(W )에 대해 올바르게 지정된로지스틱 회귀모형 logitπ(W, γ) = γ1+ γ2log(X) + γ3Z + γ4A을적합 ᄒ

ᅡ였다. 표본의 크기를 200과 400으로 하여 1000번 모의실험을수행하였고, Lu와 Tsiatis (2001)의 다 주

ᆼ대체 방법과 Bakoyannis 등 (2010)의 다중대체 방법을이용하여 구한 추정치와 결측된자료를 분석 ᄋ

ᅦ서 제외하고완전한 자료만을이용하는방법 (complete case analysis; CC)에 의한 추정치의 결과를 ᄇ

ᅵ교하였다. 다중대체 방법은결측된사건 원인을 10번 다중대치하여 추정치를계산하였다.

Table 3.1 Simulation results for ˆ β

11

under the correct imputation model

n % missing Methods Bias Emp.Var Var CP

200 20% MI (LT) -0.0029 0.057 0.057 0.952

1

, η

2

, η

3

, η

4

) MI (B) -0.0050 0.057 0.057 0.945

= (−1.38, 0, 0, 0) CC -0.0077 0.063 0.064 0.956

30% MI (LT) 0.0040 0.062 0.062 0.949

1

, η

2

, η

3

, η

4

) MI (B) -0.0022 0.061 0.062 0.950

= (−1.38, −1.6, 2, 5) CC -0.0951 0.075 0.074 0.934

40% MI (LT) -0.0094 0.069 0.067 0.949

1

, η

2

, η

3

, η

4

) MI (B) -0.0207 0.068 0.068 0.954

= (−1.38, −0.64, 2, 5) CC -0.1153 0.084 0.084 0.923

400 20% MI (LT) -0.0061 0.028 0.028 0.954

1

, η

2

, η

3

, η

4

) MI (B) -0.0070 0.028 0.028 0.950

= (−1.38, 0, 0, 0) CC -0.0067 0.032 0.032 0.954

30% MI (LT) -0.0031 0.030 0.030 0.948

1

, η

2

, η

3

, η

4

) MI (B) -0.0069 0.031 0.030 0.945

= (−1.38, −1.6, 2, 5) CC -0.1047 0.037 0.036 0.911

40% MI (LT) -0.0018 0.033 0.032 0.945

1

, η

2

, η

3

, η

4

) MI (B) -0.0067 0.033 0.033 0.950

= (−1.38, −0.64, 2, 5) CC -0.1075 0.042 0.041 0.904

Table 3.1과 Table 3.2는 두 가지 다중대체 방법과 CC 방법에 의한 ˆβ11과 ˆF1(t = 1; Z = 1, A = 0.1)의 편향(bias), 경험적 분산(empirical variance; Emp.Var), 분산 추정치(variance estimate; Var), 95% 신뢰구간에 대한 경험적 포함 확률 (empirical coverage probability; CP)을 보여준다. 여기서 Lu와 Tsiatis (2001)의 다중대체 방법을 MI (LT), Bakoyannis 등 (2010)의 다중대체 방법을 MI (B)로 ᄑ

ᅭ기하였다. π(W )의 모수적 모형이 올바르게 지정되었을때, 다중대체 방법에 의한 β11의 추정치와 누 ᄌ

ᅥᆨ발생함수 추정치는편향이 작고 분산 추정치가 경험적 분산과 일치하였다. 또한 95% 신뢰구간에 대 ᄒ

ᅡᆫ 경험적 포함 확률은 명목 수준에 가까웠다. 그러나 CC 방법에 의한 β11의 추정치와 누적발생함수 ᄎ

ᅮ정치는편향이 크고 낮은 경험적 포함확률을 가졌다. CC 방법에 의한 ˆβ11의 분산 추정치는다중대 ᄎ

ᅦ 방법에 의한 ˆβ11의 분산 추정치보다 컸다.

(7)

Table 3.2 Simulation results for ˆ F

1

(t = 1; Z = 1, A = 0.1) under the correct imputation model

n % missing Methods Bias Emp.Var Var CP

200 20% MI (LT) -0.0011 0.0015 0.0016 0.944

1

, η

2

, η

3

, η

4

) MI (B) -0.0017 0.0015 0.0016 0.944

= (−1.38, 0, 0, 0) CC -0.0139 0.0017 0.0017 0.921

30% MI (LT) -0.0041 0.0017 0.0019 0.961

1

, η

2

, η

3

, η

4

) MI (B) -0.0061 0.0017 0.0019 0.961

= (−1.38, −1.6, 2, 5) CC -0.0661 0.0014 0.0015 0.630

40% MI (LT) -0.0048 0.0020 0.0020 0.951

1

, η

2

, η

3

, η

4

) MI (B) -0.0075 0.0019 0.0021 0.951

= (−1.38, −0.64, 2, 5) CC -0.0574 0.0018 0.0018 0.713

400 20% MI (LT) -0.0020 0.0008 0.0008 0.948

1

, η

2

, η

3

, η

4

) MI (B) -0.0023 0.0008 0.0008 0.947

= (−1.38, 0, 0, 0) CC -0.0138 0.0008 0.0008 0.915

30% MI (LT) -0.0021 0.0009 0.0009 0.951

1

, η

2

, η

3

, η

4

) MI (B) -0.0033 0.0009 0.0010 0.958

= (−1.38, −1.6, 2, 5) CC -0.0656 0.0008 0.0008 0.387

40% MI (LT) -0.0010 0.0010 0.0010 0.951

1

, η

2

, η

3

, η

4

) MI (B) -0.0023 0.0010 0.0011 0.956

= (−1.38, −0.64, 2, 5) CC -0.0549 0.0009 0.0009 0.572

Table 3.3 Simulation results for ˆ β

11

under the incorrect imputation model

n % missing Methods Bias Emp.Var Var CP

200 20% MI (LT) 0.0157 0.063 0.058 0.946

1

, η

2

, η

3

, η

4

) MI (B) 0.0145 0.063 0.058 0.945

= (−1.38, 0, 0, 0) CC 0.0161 0.071 0.065 0.942

30% MI (LT) 0.0002 0.057 0.062 0.953

1

, η

2

, η

3

, η

4

) MI (B) -0.0073 0.057 0.062 0.957

= (−1.38, −1.6, 2, 5) CC -0.1091 0.069 0.073 0.940

40% MI (LT) -0.0057 0.067 0.068 0.951

1

, η

2

, η

3

, η

4

) MI (B) -0.0169 0.066 0.068 0.956

= (−1.38, −0.64, 2, 5) CC -0.1232 0.082 0.083 0.919

400 20% MI (LT) -0.0011 0.029 0.028 0.951

1

, η

2

, η

3

, η

4

) MI (B) -0.0027 0.029 0.028 0.948

= (−1.38, 0, 0, 0) CC -0.0063 0.033 0.032 0.951

30% MI (LT) -0.0001 0.031 0.031 0.949

1

, η

2

, η

3

, η

4

) MI (B) -0.0044 0.031 0.031 0.947

= (−1.38, −1.6, 2, 5) CC -0.1055 0.038 0.036 0.897

40% MI (LT) -0.0009 0.031 0.033 0.961

1

, η

2

, η

3

, η

4

) MI (B) -0.0086 0.031 0.033 0.967

= (−1.38, −0.64, 2, 5) CC -0.1111 0.037 0.041 0.918

(8)

Table 3.4 Simulation results for under the incorrect imputation model

n % missing Methods Bias Emp.Var Var CP

200 20% MI (LT) -0.0027 0.0015 0.0015 0.951

1

, η

2

, η

3

, η

4

) MI (B) -0.0032 0.0015 0.0016 0.960

= (−1.38, 0, 0, 0) CC -0.0129 0.0017 0.0017 0.926

30% MI (LT) -0.0090 0.0019 0.0018 0.941

1

, η

2

, η

3

, η

4

) MI (B) -0.0105 0.0018 0.0019 0.956

= (−1.38, −1.6, 2, 5) CC -0.0653 0.0016 0.0015 0.625

40% MI (LT) -0.0088 0.0021 0.0020 0.934

1

, η

2

, η

3

, η

4

) MI (B) -0.0109 0.0021 0.0021 0.945

= (−1.38, −0.64, 2, 5) CC -0.0573 0.0020 0.0018 0.708

400 20% MI (LT) -0.0030 0.0008 0.0008 0.944

1

, η

2

, η

3

, η

4

) MI (B) -0.0033 0.0008 0.0008 0.948

= (−1.38, 0, 0, 0) CC -0.0129 0.0008 0.0009 0.921

30% MI (LT) -0.0097 0.0009 0.0009 0.931

1

, η

2

, η

3

, η

4

) MI (B) -0.0102 0.0010 0.0010 0.937

= (−1.38, −1.6, 2, 5) CC -0.0651 0.0008 0.0008 0.404

40% MI (LT) -0.0076 0.0010 0.0010 0.950

1

, η

2

, η

3

, η

4

) MI (B) -0.0089 0.0009 0.0011 0.962

= (−1.38, −0.64, 2, 5) CC -0.0559 0.0009 0.0009 0.541

보

ᆫ 연구에서 소개된 다중대체 방법들은 π(W )에 대한 모수적 모형을 기반으로 개발되었다. Satten ᄃ

ᅳᆼ (1998)은 π(W )에 대한 모수적 모형이 잘못지정되면 다중대체 방법에 의한 추정치는편향될수 있 ᄋ

ᆷ을 지적하였다. π(W )에 대한 모수적 모형이 잘못 지정되었을경우 다중대체 방법에 의한 추정치의 ᄀ

ᅡᆫ겅성을평가하기 위해 이전과 동일한 시나리오에서 자료를생성하였고, π(W )에 대해 잘못지정된로 ᄌ

ᅵ스틱 회귀모형 logitπ(W, γ) = γ1+ γ2X + γ3Z + γ4A를적합하였다. 표본의 크기를 200과 400으 ᄅ

ᅩ 하여 1000번 모의실험을수행하였고, 두 가지 다중대체 방법에 의한 추정치와 CC 방법에 의한 추정 ᄎ

ᅵ를 계산하였다. Table 3.3과 Table 3.4에서 보듯이 π(W )의 모형이 잘못지정되더라도 다중대체 방 버

ᆸ에 의한 추정치의 편향은작았으며, 분산 추정치는경험적 분산과 일치하였고, 95% 신뢰구간에 대한 겨

ᆼ험적 포함확률은명목수준에 가까웠다. 다중대체 방법에 중도절단 비율이 미치는영향을평가하기 ᄋ

ᅱ해 추가적인 모의실험을수행하였다. 이전과 동일한 시나리오에서 자료를생성하였고, 중도절단 비율 ᄋ

ᅳᆯ 50%로 증가시켰다. π(W )에 대한 모형이 올바르게 지정된 경우와 잘못지정된 경우 모두를고려하 ᄋ

ᅧᆻ다. 두 가지 다중대체 방법에 의한 추정치들은모든경우에 대해 잘 수행되었고, 중도절단 비율에 민 ᄀ

ᆷ하지 않음을확인하였다.

4. 결장암 3기 자료 분석

4.1. 자료 설명 ᄆ

ᅵ국 국립암연구소의 SEER 프로그램에서 제공하는결장암 3기 자료를 분석에 사용하였다. 1994년- 2005년 사이에 결장암 3기 진단을받은 66세 이상의 15,690명환자들에 대해 암 부위 (site), 하위 단 ᄀ

ᅨ (substage), 성별, 인종/민족, 분화도 (grade), 진단 연령, 동반질환 점수 (comorbidity score), 진단 ᄋ

ᅧᆫ도 (1994-2005)의 정보가 수집되었고, Table 4.1는이환자들에 대한 기술 통계를보여준다. 최대관 ᄎ

ᆨ시간은 120개월이며, 15,690명의환자들 중 6,028명이 결장암으로 사망하였고 3,278명이 다른 원인 ᄋ

ᅳ로 사망하였으며 6,272명이 중도절단 되었다. 사망 원인을모르거나 결측된사망 원인을가진 112명 ᄋ

ᅴ환자가 있었으며, 이들은사망환자들의 1.19%에 해당한다. 동반질환 점수는미국의 메디케어 자료 (Medicare data)와 연결된 SEER사례에서 파생되었으며, Klabunde 등 (2000)이 개발한 알고리즘을

(9)

ᅵ용하여 계산되었다. 결장암 3기 자료에서 동반질환 점수는 0에서 최대 3.6108의 점수를가지며, 모형 ᄌ

ᅥᆨ합시 2점까지는선형변수로 적합하였고 2점보다큰 점수들은수평 (flat)으로 적합하였다 (즉, 2점보 ᄃ

ᅡ큰점수들은 2점으로 간주하여 선형변수로 적합하였다). 예비분석 결과, 동반질환 점수를전체 범위 (0-3.6108)에 대해 선형변수로 모형에 적합하면 2점보다 높은점수를가지는소수의 사람들 (전체환자 ᄃ

ᆯ의 0.85%)이 기울기에큰영향을미치는것으로 나타났다. 따라서 모형을적합할 때와 결장암 누적사 ᄆ

ᅡᆼ확률과 다른 원인 누적사망확률을추정할 때, 2점보다 높은점수는 2점으로 간주하였다 (Lee, 2019).

Table 4.1 Data characteristics

Variables n %

Total cases 15,690

Site

Proximal 9,831 62.66

Distal 5,859 37.34

Substage

Stage IIIA 1,542 9.83

Stage IIIB 9,506 60.59

Stage IIIC 4,642 29.59

Gender

Male 6,752 43.03

Female 8,938 56.97

Race/ethnicity

Hispanic 813 5.18

Non-Hispanic White 12,715 81.04 Non-Hispanic Black 1,092 6.96 Non-Hispanic Other 1,070 6.82 Grade

Grade I/II 10,618 67.67

Grade III/IV 4,642 29.59

Grade Unknown 430 2.74

Comorbidity

score=0 10,338 65.89

0<score≤1 4,191 26.71

1<score≤2 1,027 6.55

score>2 134 0.85

Age at diagnosis mean=77.33 sd=7.04

4.2. 자료 분석 결과 겨

ᆯ측된사망 원인을가진 결장암 3기 자료를 분석하기 위해 Lu와 Tsiatis (2001)의 다중대체 방법과 Bakoyannis 등 (2010)의 다중대체 방법을적용하였다. 각각의 다중대체 방법에 따라 결측된사망 원인 ᄋ

ᅳᆯ 10번 다중대치하였으며, π(W )의 모수적 모형으로 로지스틱 회귀모형을사용하였다. 로지스틱 회귀 ᄆ

ᅩ형 적합시 유의수준 5%에서 통계적으로 유의한 하위 단계, 성별, 진단 연령, 동반질환 점수, 진단 연 려

ᆼ과 동반질환 점수 간의 교호 작용이 W 에 포함되었다. 10번 다중 대치된자료 각각에 암 부위, 하위 ᄃ

ᅡᆫ계, 성별, 인종/민족, 분화도, 진단 연령, 동반질환 점수, 진단 연령과 동반질환 점수 간의 교호 작용, ᄌ

ᅵᆫ단 연도를 공변량으로 하는 원인별 비례위험모형을적합하였고, 회귀모수 추정치, 표준오차, p-값, 누 ᄌ

ᅥᆨ발생함수 추정치, 누적발생함수 추정치의 분산추정치를계산하였다. Table 4.2와 Table 4.3은결장암 ᄉ

ᅡ망과 다른 원인 사망에 대해 두 가지 다중대체 방법에 의한 결과와 사망 원인이 결측된 환자들을 분석 ᄋ

ᅦ서 제외한 후 (즉,사망 원인이완벽히관측된자료만 분석에 사용: CC라고 표기) 원인별 비례위험모 혀

ᆼ을 적합하여 얻은 결과를보여준다. Table 4.2와 Table 4.3에서 Lu와 Tsiatis (2001)의 다중대체 방

(10)

버

ᆸ을 MI (LT), Bakoyannis 등 (2010)의 다중대체 방법을 MI (B)로 표기하였다. 두 가지 다중대체 방 버

ᆸ에 의한 결과는매우 비슷하였으며, 사망한환자들 중 1.19%만이 사망 원인에 결측값을가졌기 때문 ᄋ

ᅦ 다중대체 방법에 의한 결과와 CC 방법에 의한 결과가 비슷했다. 유의수준 5%에서 성별, 인종/민족, 부

ᆫ화도, 진단 연령, 진단 연도는결장암 사망과 다른 원인으로 인한 사망에 유의한 영향을미치는요인 ᄃ

ᆯ이였으며, 하위 단계는결장암 사망에만 유의한 영향을미쳤으며, 동반질환 점수, 동반질환 점수와 진 ᄃ

ᅡᆫ 연령 간의 교호 작용은다른 원인으로 인한 사망에만 유의한 영향을미치는요인들이였다.

Table 4.2 Regression parameter estimates, standard errors, and p-values for death from colon cancer under the cause-specific proportional hazards model by 10 multiple imputations and the complete case analysis (CC)

MI (LT) MI (B) Complete case (CC)

Covariates β ˆ

1

(se) p-value β ˆ

1

(se) p-value β ˆ

1

(se) p-value Site

Proximal 0 (-) - 0 (-) - 0 (-) -

Distal -0.080 (0.028) 0.004 -0.079 (0.028) 0.004 -0.082 (0.028) 0.003 Substage

Stage IIIA 0 (-) - 0 (-) - 0 (-) -

Stage IIIB 0.839 (0.066) <0.001 0.844 (0.066) <0.001 0.842 (0.066) <0.001 Stage IIIC 1.422 (0.067) <0.001 1.427 (0.067) <0.001 1.428 (0.067) <0.001 Gender

Male 0 (-) - 0 (-) - 0 (-) -

Female -0.082 (0.027) 0.002 -0.082 (0.027) 0.002 -0.081 (0.027) 0.002 Race/ethnicity

Hispanic 0 (-) - 0 (-) - 0 (-) -

Non-Hispanic White 0.127 (0.058) 0.028 0.124 (0.058) 0.033 0.114 (0.059) 0.052 Non-Hispanic Black 0.255 (0.049) <0.001 0.253 (0.049) <0.001 0.251 (0.049) <0.001 Non-Hispanic Other -0.159 (0.055) 0.004 -0.155 (0.055) 0.005 -0.165 (0.056) 0.003 Grade

Grade I/II 0 (-) - 0 (-) - 0 (-) -

Grade III/IV 0.264 (0.028) <0.001 0.265 (0.028) <0.001 0.267 (0.028) <0.001 Grade Unknown 0.204 (0.076) 0.008 0.208 (0.077) 0.007 0.200 (0.078) 0.010 Age at diagnosis 0.038 (0.002) <0.001 0.038 (0.002) <0.001 0.039 (0.002) <0.001 Year of diagnosis -0.021 (0.004) <0.001 -0.021 (0.004) <0.001 -0.023 (0.004) <0.001

Figure 4.1은하위 단계 IIIB, 분화도 III/IV, 동반질환 점수 0.6, 2000년도에 원위 (distal) 결장암 ᄌ

ᅵᆫ단을받았던 75세의 비 히스패닉 백인 여성환자의 결장암 누적사망확률과 다른 원인 누적사망확률의 ᄎ

ᅮ정치 곡선과 95% 신뢰구간을보여준다. 두 가지 다중대체 방법과 CC 방법에 의해 구해진 결장암 누 ᄌ

ᅥᆨ사망확률과 다른 원인 누적사망확률의 추정치 곡선과 95% 신뢰구간은서로 구별할 수 없을정도로 매 ᄋ

ᅮ 비슷하였다. 예를 들어, 이환자가 5년 이내에 결장암으로 사망할확률 (95% 신뢰구간)은두 가지 ᄃ

ᅡ중대체 방법 모두에서 0.348 (0.328, 0.368)이였고, CC 방법에서 0.347 (0.327, 0.367)이였다. 이환 ᄌ

ᅡ가 5년 이내에 다른 원인으로 인하여 사망할확률은 MI (LT)방법에서 0.193 (0.178, 0.207), MI (B) ᄇ

ᅡᆼ법에서 0.192 (0.178, 0.207)이였고, CC 방법에서 0.192 (0.177, 0.206)이였다.

ᅡ망 원인이 더 많이 결측되었을경우 다중대체 방법과 CC 방법의 결과를비교해 보기 위해, 사망 원 ᄋ

ᅵᆫ이 결측될 확률을 인위적으로 생성하였다. 결측지시자 Ri를다음과 같은확률을갖는베르누이 분포 ᄅ

ᅩ부터 생성하여 사망 원인이완벽히 알려진환자들에 대해 Ri= 0이면 사망 원인을결측처리하였다.

ᅡ래 모형에서 X는관측시간을나타내며, 아래 모형의 회귀계수들은 임의로 설정하였다.

(11)

Table 4.3 Regression parameter estimates, standard errors, and p-values for death from other causes under the cause-specific proportional hazards model by 10 multiple imputations and the complete case analysis (CC)

MI (LT) MI (B) Complete case (CC)

Covariates β ˆ

2

(se) p-value β ˆ

2

(se) p-value β ˆ

2

(se) p-value Gender

Male 0 (-) - 0 (-) - 0 (-) -

Female -0.256 (0.036) <0.001 -0.257 (0.036) <0.001 -0.258 (0.036) <0.001 Race/ethnicity

Hispanic 0 (-) - 0 (-) - 0 (-) -

Non-Hispanic White -0.021 (0.086) 0.806 -0.016 (0.086) 0.854 -0.021 (0.086) 0.802 Non-Hispanic Black 0.258 (0.066) <0.001 0.260 (0.066) <0.001 0.260 (0.066) <0.001 Non-Hispanic Other -0.341 (0.084) <0.001 -0.351 (0.085) <0.001 -0.363 (0.085) <0.001 Grade

Grade I/II 0 (-) - 0 (-) - 0 (-) -

Grade III/IV 0.111 (0.039) 0.004 0.109 (0.039) 0.005 0.111 (0.039) 0.005 Grade Unknown 0.009 (0.105) 0.934 0.002 (0.106) 0.989 0.002 (0.105) 0.988 Age at diagnosis 0.094 (0.003) <0.001 0.094 (0.003) <0.001 0.094 (0.003) <0.001 Comorbidity 3.680 (0.355) <0.001 3.686 (0.357) <0.001 3.696 (0.357) <0.001 Year of diagnosis -0.021 (0.006) <0.001 -0.020 (0.006) 0.001 -0.023 (0.006) <0.001 Age at diagnosis -0.033 (0.004) <0.001 -0.033 (0.004) <0.001 -0.033 (0.004) <0.001

× Comorbidity

0 20 40 60 80 100 120

0.00.20.40.60.81.0

Death from colon cancer

Time (Months)

Cumulative incidence estimates

Multiple imputation estimates (LT) Multiple imputation 95% CI (LT) Multiple imputation estimates (B) Multiple imputation 95% CI (B) Complete case estimates Complete case 95% CI

0 20 40 60 80 100 120

0.00.20.40.60.81.0

Death from other causes

Time (Months)

Cumulative incidence estimates

Figure 4.1 Estimated cumulative incidence functions with pointwise 95% confidence intervals under the cause-specific proportional hazards model by the multiple imputation method and complete case method for a

non-Hispanic white woman aged 75 years diagnosed in 2000 with distal colon cancer, grade III/IV, and

comorbidity score of 0.6 in stage IIIB. Only 1.19% of the cause of death data was missing.

수치

Table 3.1 Simulation results for ˆ β 11 under the correct imputation model
Table 3.3 Simulation results for ˆ β 11 under the incorrect imputation model
Table 3.4 Simulation results for under the incorrect imputation model
Table 4.1 Data characteristics
+6

참조

관련 문서

¡ Risk and issue management: It needs to come up with measures to prevent the project from being delayed between planning and implementation stage. The

(Method) The study subjects were 25 cancer patients out of 796 end-stage renal disease (ESRD) patients maintained on hemodialysis or peritoneal dialysis at Chosun

* GMC : General Medical Condition.. Suicide attempts related factors ; cause, methods, impulsivity, drinking.. New oxford Textbooks of psychiatry. Epidemiology

In the present study, consistent to that report, up-regulation of VEGF mRNA was observed in the colon cancer cell with the acquired resistance to 5-FU and this

The PIG3 was interacted with the CTSB in human prostate cancer cell line PC3, which was verified by co-immunoprecipitation analysis using specific

To confirm the actual biological meaning of data obtained through genetic analysis, Litsea japonica fruit the data obtained from the

- Computer modeling of the function of the human heart - Writing software for analysis of medical research data - Analysis of medical device hazards for safety and

Results: Poorly differentiated colorectal cancer was frequently located at right colon and in advanced stage.. During follow-up, double primary cancer had occurred