• 검색 결과가 없습니다.

Bayesian model for the receiver operating characteristic curve using the skew normal distribution<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Bayesian model for the receiver operating characteristic curve using the skew normal distribution<sup>†</sup>"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2021, 32

(

1)

,

15–24

왜정규분포를 이용한 ROC 곡선에 대한 베이지안 모형

자

ᆼ은진

1

· 김달호

2

1안동대학교 정보통계학과 · 2경북대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 29ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 8ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ

요 약

ᄌ ᅵ

ᆯᄇ ᅧ ᆼ ᄌ ᅵ ᆫᄃ ᅡ ᆫᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅡ ᆫ ᄌ ᅵ ᆫᄃ ᅡ ᆫᄀ ᅥ ᆷᄉ ᅡᄋ ᅴ ᄀ ᅧ ᆯᄀ ᅪᄂ ᅳ ᆫ ᄋ ᅧ ᆫᄉ ᅩ ᆨᄒ ᅧ ᆼ ᄄ ᅩᄂ ᅳ ᆫ ᄉ ᅮ ᆫ ᄉ ᅥᄒ ᅧ ᆼ ᄌ ᅡᄅ ᅭᄅ ᅩ ᄌ ᅮᄋ ᅥᄌ ᅵ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄃ ᅦ, ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄌ ᅵ ᆫ ᄃ

ᅡ ᆫᄀ ᅥ ᆷᄉ ᅡᄋ ᅴ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄂ ᅳ ᆫ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄒ ᅪ ᄀ ᅩ ᆨᄉ ᅥ ᆫᄀ ᅪ ᄀ ᅩ ᆨᄉ ᅥ ᆫᄒ ᅡᄆ ᅧ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄂ ᅡᄐ ᅡᄂ ᅢ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄋ ᅵ ᆷᄉ ᅡ ᆼᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄋ ᅲᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄌ ᅵ ᆫᄃ ᅡ ᆫᄀ ᅥ ᆷᄉ ᅡᄂ ᅳ ᆫ ᄋ ᅵ ᆷ ᄋ

ᅴᄅ ᅩ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄒ ᅡ ᆫ ᄉ ᅵ ᆯᄌ ᅦ ᄌ ᅵ ᆯᄇ ᅧ ᆼᄋ ᅵ ᄋ ᅥ ᆹᄂ ᅳ ᆫ ᄀ ᅧ ᆼᄋ ᅮᄋ ᅴ ᄀ ᅥ ᆷᄉ ᅡ ᄀ ᅧ ᆯᄀ ᅪᄇ ᅩᄃ ᅡ ᄉ ᅵ ᆯᄌ ᅦ ᄌ ᅵ ᆯᄇ ᅧ ᆼᄋ ᅵ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄀ ᅧ ᆼᄋ ᅮᄋ ᅴ ᄀ ᅥ ᆷᄉ ᅡ ᄀ ᅧ ᆯᄀ ᅪᄀ ᅡ ᄃ ᅥ ᄏ ᅳᄀ ᅦ ᄂ ᅡ ᄋ

ᅩᄂ ᅳ ᆫ ᄀ ᅧ ᆼᄋ ᅮᄋ ᅵ ᆫᄃ ᅦ, ᄋ ᅵᄅ ᅥ ᆫ ᄀ ᅧ ᆼᄋ ᅮ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄒ ᅪ ᄀ ᅩ ᆨᄉ ᅥ ᆫᄋ ᅳ ᆫ ᄌ ᅥ ᆨᄌ ᅥ ᆯᄒ ᅡᄃ ᅡᄀ ᅩ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵ ᆫᄃ ᅡ ᆫᄀ ᅥ ᆷᄉ ᅡᄋ ᅴ ᄀ ᅧ ᆯᄀ ᅪᄀ ᅡ ᄉ ᅮ ᆫ ᄉ

ᅥᄒ ᅧ ᆼ ᄌ ᅡᄅ ᅭᄅ ᅩ ᄌ ᅮᄋ ᅥᄌ ᅵᄂ ᅳ ᆫ ᄀ ᅧ ᆼᄋ ᅮ ᄌ ᅥ ᆨᄌ ᅥ ᆯᄒ ᅡ ᆫ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄒ ᅪ ᄀ ᅩ ᆨᄉ ᅥ ᆫᄋ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄌ ᅥ ᆨ ᄉ ᅮ ᆫ ᄉ ᅥᄒ ᅪ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫ ᄃ

ᅡ. ᄀ ᅳᄅ ᅵᄀ ᅩ ᄉ ᅮ ᆫ ᄉ ᅥᄒ ᅧ ᆼ ᄇ ᅧ ᆫᄉ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅡ ᆷᄌ ᅢᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄇ ᅮ ᆫ ᄑ ᅩᄀ ᅡ ᄎ ᅵᄋ ᅮᄎ ᅵ ᆫ ᄀ ᅧ ᆼᄋ ᅮᄅ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄌ ᅡ ᆷᄌ ᅢᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄇ ᅮ ᆫ ᄑ ᅩ ᄅ

ᅳ ᆯ ᄋ ᅫᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅩ ᄀ ᅡᄌ ᅥ ᆼᄒ ᅡᄋ ᅧ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄒ ᅪ ᄀ ᅩ ᆨᄉ ᅥ ᆫᄀ ᅪ ᄀ ᅩ ᆨᄉ ᅥ ᆫᄒ ᅡᄆ ᅧ ᆫᄌ ᅥ ᆨᄋ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅩᄀ ᅢᄒ ᅡᄀ ᅩ, ᄋ ᅵ ᄅ

ᅳ ᆯ ᄉ ᅵ ᆯᄌ ᅦ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼ, ᄉ ᅮ ᆫ ᄉ ᅥᄒ ᅧ ᆼᄌ ᅡᄅ ᅭ, ᄋ ᅫᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩ, ᄌ ᅵ ᆫᄃ ᅡ ᆫᄀ ᅥ ᆷᄉ ᅡ, ᄐ ᅳ ᆨᄉ ᅥ ᆼᄒ ᅪᄀ ᅩ ᆨᄉ ᅥ ᆫ.

1. 서론 지

ᆯ병 진단을위한 진단검사의 결과는 혈액검사 결과와 같이 연속형 자료로 주어지는경우도 있지만, ᄃ

ᅡᆫ순 방사선 검사, 전산화 단층촬영, 자기공명영상과 같은 영상검사의 경우 순서형 자료로 주어지는 겨

ᆼ우가 많다. 예를 들어 흉부 대동맥 박리를 진단하기 위한 자기공명영상 검사 결과는 1=질병이 명 배

ᆨ히 없는 경우 (disease definitely absent), 2=질병이 아마도 없는 경우 (disease probably absent), 3=질병 가능성이 있는경우 (disease possibly present), 4=질병이 아마도 있는경우 (disease probably present), 5=질병이 명백히 있는 경우 (disease definitely present)와 같이 주어질 수 있다 (Van Dyke ᄃ

ᅳᆼ, 1993).

ᅵᆫ단검사의 정확도를평가하는방법으로 검사결과의 위양성률 (false positive rate)과 진양성률 (true positive rate) 사이의 관계를 나타내는 특성화곡선 (receiver operating characteristic curve, ROC curve) 분석을많이 사용한다 (Hong과 Lee, 2018; Hong과 Choi, 2020). 여기서 위양성률은 “1-특이도 (specificity)”로 실제로 질병이 없는데도 양성이 나올 확률이며, 진양성률은 “민감도 (sensitivity)”로 시

ᆯ제로 질병이 있는경우 양성이 나올확률을나타낸다. 진단검사의 정확도는 ROC 곡선 아래 면적인 ᄀ

ᅩᆨ선하면적 (area under curve, AUC)을이용하여 나타낼 수 있으며, AUC가 1에 가까울수록 진단검사 ᄋ

ᅴ 정확도는 높다고 할 수 있다.

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄋ ᅡ ᆫᄃ ᅩ ᆼ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄀ ᅵᄇ ᅩ ᆫᄋ ᅧ ᆫᄀ ᅮᄌ ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅦ ᄋ ᅴᄒ ᅡᄋ ᅧ ᄋ ᅧ ᆫᄀ ᅮᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ.

1

(36729) ᄀ ᅧ ᆼᄉ ᅡ ᆼᄇ ᅮ ᆨ ᄃ ᅩ ᄋ ᅡ ᆫᄃ ᅩ ᆼ ᄉ ᅵ ᄀ ᅧ ᆼᄃ ᅩ ᆼ ᄅ ᅩ 1375, ᄋ ᅡ ᆫᄃ ᅩ ᆼ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (41566) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80, ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ. E-mail: [email protected]

(2)

이

ᆷ상적으로 유용한 진단검사는 임의로 선택한 실제 질병이 없는경우의 검사 결과보다 실제 질병이 있 느

ᆫ경우의 검사 결과가 더 크게 나오는경우인데, 이때 ROC 곡선은대각선 보다 위 부분에 나타나게 되 ᄆ

ᅧ 0 ≤ u ≤ 1에 대해 ROC(u) > u가 성립한다. 이런 경우 ROC 곡선은오목 (concave)함수로 나타나 느

ᆫ데, 이런 ROC 곡선을적절 (proper)하다고 하며, AUC는항상 0.5보다 크게된다. 실제 ROC 곡선 ᄋ

ᅵ 적절한 경우에도, 표본수가 작거나 순서형 자료로 진단검사 결과가 주어지는경우 추정된 ROC 곡선 ᄋ

ᆫ갈고리 (hook) 형태를가지거나 오목함수가 아닌 형태를나타낼 수 있다. 따라서 순서형 자료로 주 ᄋ

ᅥ지는 ROC 곡선 추정시 적절한 ROC 곡선을추정하는 문제는 중요하다고 할 수 있다.

수

ᆫ서형 자료에 대한 ROC 곡선을추정하는방법으로 실제로 질병이 없는경우와 질병이 있는경우의 거

ᆷ사결과의 잠재 (latent) 분포를정규분포로 가정하는모형을많이 사용하는데, 최대우도검정법을이용 ᄒ

ᅡ는 방법 (Dorfman과 Alf, 1969; Swets, 1986; Hanley, 1988; Metz, 1989; Metz 등, 1998) 또는 베 ᄋ

ᅵ지안 방법 (Peng과 Hall, 1996; Ishwaran과 Gatsonis, 2000; Johnson과 Johnson, 2006; Wang 등, 2007)을고려할 수 있다.

ᅮᆫ서형 자료에 대한 적절한 ROC 곡선 추정시 잠재변수의 분포가 치우친 경우를 고려하기 위해 감 ᄆ

ᅡ분포를 이용한 모형 (Dorfman 등, 1996; Hughes와 Bhattacharya, 2013), 베타분포를 이용한 모 혀

ᆼ (Mossman과 Peng, 2016)이 제안되었으며, Nandram과 Peiris (2018)는왜정규분포 (skew normal distribution)를고려한 베이지안 모형을제안하였다.

ᅩᆫ 연구에서는 진단검사의 결과가 순서형 자료로 주어지는경우 적절한 ROC 곡선을추정하기 위해 화

ᆨ률적 순서화 (stochastic ordering) 방법을이용하고자 한다. 이때 Jang과 Kim (2019)에서 제안한 잠 ᄌ

ᅢ변수에 대해 정규분포를가정한 베이지안 모형을왜정규분포를가정한 모형으로확장하고, 실제자료 ᄋ

ᅦ 적용하여 결과를비교하고자 한다. 본 논문의 구성은다음과 같다. 제2절에서는왜정규분포를이용 ᄒ

ᅡᆫ 베이지안 모형을소개하고, 제3절에서는 실제자료에 적용한 결과를설명하고 제4절에서는결론을제 ᄉ

ᅵ한다.

2. 왜정규분포를 이용한 ROC 곡선에 대한 베이지안 모형

2.1. 왜정규분포 ᄋ

ᅫ정규분포는 Azzalini (1985)에 의해 소개되었으며,확률밀도함수는다음과 같다.

f (z; α) = 2ϕ(z)Φ(αz), −∞ < z < ∞, ᄋ

ᅧ기서 ϕ(z)는 표준정규분포의확률밀도함수, Φ(z)는표준정규분포의 누적분포함수, α는 분포의 왜도 (skewness)를나타내는모수로 −∞ < α < ∞이다. 이와 같은왜정규분포를 SN (0, 1, α)로 나타내며, ᄀ

ᅵ대값과 분산은

E(Z) = δ r2

π, V ar(Z) = 1 −2δ2 π ᄋ

ᅵ며, 여기서 δ = α/√

1 + α2이며, −1 < δ < 1이다. 왜정규분포에서 α가 0인 경우 표준정규분포가 되 ᄆ

ᅧ, α가 0 보다 작은경우 왜정규분포는왼쪽으로 치우친 분포이며, 0 보다큰경우 오른쪽으로 치우친 ᄇ

ᅮᆫ포를나타낸다.

화

ᆨ률변수 Y = µ + σZ라고 두면, Y 의확률밀도함수는 f (y; µ, σ, α) = 2

σϕy − µ σ

 Φ

αy − µ σ



, −∞ < y < ∞

(3)

ᅵ며, 위치모수 µ, 척도모수 σ, 형태모수 α를 이용하여 SN(µ, σ2, α)로 나타낼 수 있다. 이때 확률 ᄇ

ᅧᆫ수 Y 의 기대값은 E(Y ) = µ + δσp2/π가 되며, SN(−δσp2/π, σ2, α)의 기대값은 0, SN (µ − δσp2/π, σ2, α)의 기대값은 µ가된다.

ᅫ정규분포 SN(µ, σ2, α)의 누적분포함수는 Φy − µ

σ ; α

= Φ αy − µ

σ

− 2Ty − µ σ , α ᄋ

ᅵ며, 여기서 T (h, a)는다음과 같이 나타낼 수 있으며 (Azzalini, 1986),

T (h, a) = 1 2π

Za 0

exp−12h2(1 + x2)

1 + x2 dx, h, a ∈ R.

보

ᆫ 논문에서는이 방법을이용하여 왜정규분포의 누적분포함수를계산한다 (Azzalini, 2017).

2.2. 왜정규분포를 이용한 ROC 곡선에 대한 베이지안 모형 ᄌ

ᅵᆫ단검사의 결과가 K개의 순서형 범주를가지는경우, n1j는 실제로 질병이 없는그룹의 j번째 범주 ᄋ

ᅦ서관찰된빈도, n2j는 실제로 질병이 있는그룹의 j번째 범주에서관찰된빈도이며, j = 1, · · · , K라 ᄀ

ᅩ 하자. 따라서 n1 = (n11, · · · , n1K)T는 실제 질병이 없는 그룹의 관찰된 빈도를 나타내는 벡터이 ᄆ

ᅧ, n2 = (n21, · · · , n2K)T는 실제 질병이 있는 그룹의 관찰된 빈도이며, n1 = PK

j=1n1j와 n2 = PK

j=1n2j는 실제 질병이 없는 그룹의 전체 표본수 및 실제 질병이 있는그룹의 전체 표본수를나타낸 ᄃ

ᅡ.

ᅡᆫ일 실제 질병이 없는그룹의 j번째 범주에 속할확률을 p1j, 실제 질병이 있는그룹의 j번째 범주에 ᄉ

ᆨ할확률을 p2j라고 한다면, 실제 질병이 없는그룹의 각 범주가 일어날 빈도는 총시행횟수가 n1이고 화

ᆨ률 p1 = (p11, · · · , p1K)T을가지는다항분포를따른다고 할 수 있으며, 실제 질병이 있는그룹의 각 ᄇ

ᅥᆷ주가 일어날 빈도도 총시행횟수가 n2이고확률 p2 = (p21, · · · , p2K)T을 가지는다항분포를따른다 ᄀ

ᅩ 할 수 있다. 따라서 결합우도함수는다음과 같다 (Jang과 Kim, 2019).

p(n1, n2|p1, p2) = n1!n2! QK

j=1n1j!n2j!

K

Y

j=1

pn1j1jpn2j2j.

K개의 순서형 범주를가지는 진단검사결과에 대해 연속형 잠재변수의확률분포를가정한다면, 연속 혀

ᆼ 잠재변수의 확률분포는 K − 1개의 경계값인 c1, c2, · · · , cK−1에 의해 나눌 수 있으며, c0 ≡ −∞, cK≡ ∞로 가정할 수 있다 (Metz 등, 1998; Metz와 Pan, 1999).

F1을 실제로 질병이 없는 그룹의 누적분포함수, F2는 실제로 질병이 있는 그룹의 누적분포함수라고 ᄀ

ᅡ정하면, 질병이 없는그룹과 질병이 있는그룹에서 j번째 범주에 속할확률은다음과 같이 정의할 수 이

ᆻ다.

p1j= F1(cj) − F1(cj−1), p2j = F2(cj) − F2(cj−1). (2.1) Jang과 Kim (2019)에서는잠재변수의 분포를정규분포로 가정하였는데, 본연구에서는치우친 분포 르

ᆯ고려할 수 있도록잠재변수의 분포로 왜정규분포를가정하고자 한다. 실제 질병이 없는그룹의 잠재 ᄇ

ᅧᆫ수의 분포는 평균이 0이 되도록 SN (−δ1p2/π, 1, δ1/p1 − δ21)으로 가정하고, 실제 질병이 있는 그 루

ᆸ의 잠재변수의 분포는 평균이 µ가 되도록 SN (µ − δ2σp2/π, σ2, δ2/p1 − δ22)로 가정한다. 여기서 δ1= α1/p1 + α21, −1 < δ1< 1이며, δ2= α2/p1 + α22, −1 < δ2< 1이다.

(4)

ᄌ ᅥ

ᆨ절한 ROC 곡선을추정하기 위해서는 ROC(u) > u, 0 ≤ u ≤ 1를만족해야 하는데, 이는 F1(u) ≥ F2(u)와 동치이다 (Hanson 등, 2008). 그리고 모든 u에 대해 F1(u) ≥ F2(u)인 경우 F2는 F1 보다 화

ᆨ률적으로 크며, 이를두 모집단 간확률적 순서가 있다고 정의할 수 있다 (Gelfand와 Kottas, 2001;

Hwang과 Chen, 2015). 따라서 왜정규분포를이용하여확률적 순서화를고려하여 질병이 없는그룹과 지

ᆯ병이 있는그룹의 누적분포함수를다음과 같이 정의할 수 있다 (Nandram과 Peiris, 2018).

F1(cj) = Φ cj+ δ1

p2/π, δ1

p1 − δ12

! ,

F2(cj) = Φ cj+ δ1

p2/π, δ1

p1 − δ12

!

Φ cj− µ σ + δ2

p2/π, δ2

p1 − δ22

! .

ᅡ라서 질병이 없는그룹과 질병이 있는 그룹에서 j번째 범주에 속할확률인 식 (2.1)은다음과 같이 ᄂ

ᅡ타낼 수 있다.

p1j= Φ cj+ δ1

p2/π, δ1

p1 − δ21

!

− Φ cj−1+ δ1

p2/π, δ1

p1 − δ12

!

, (2.2)

p2j= Φ cj+ δ1

p2/π, δ1

p1 − δ21

!

Φ cj− µ σ + δ2

p2/π, δ2

p1 − δ22

!

(2.3)

−Φ cj−1+ δ1

p2/π, δ1

p1 − δ12

!

Φ cj−1− µ σ + δ2

p2/π, δ2

p1 − δ22

! .

ᅩ수 µ에 대해서는코시 사전분포 (Galman 등, 2008), σ2에 대해서는 축소사전분포 (Gelman, 2006;

Nandram 등, 2013), δ1과 δ2에 대해서는 균일 사전분포를다음과 같이 가정한다.

p(µ) = 1

π(1 + µ2), p(σ2) = 1 (1 + σ2)2, δ1∼ U (−1, 1), δ2∼ U (−1, 1).

ᄌ ᅡ

ᆷ재분포의 경계값 c에 대한 사전분포로 위치모수가 0이고 척도모수가 1인 표준로지스틱분포를사전 부

ᆫ포로 가정하며 (Nandram과 Peiris, 2018), c1, c2, · · · , cK−1

iid∼ logistic(0, 1), −∞ < c1< c2< · · · < cK−1< ∞.

c의 결합 사전분포는다음과 같이 나타낼 수 있다.

p(c) = (K − 1)!

K−1

Y

j=1

ecj

(1 + ecj)2, −∞ < c1< c2< · · · < cK−1< ∞.

ᅡ라서 베이즈정리에 따른결합사후분포는다음과 같이 주어진다.

p(µ, σ2, δ1, δ2, c|n1, n2) ∝

K

Y

j=1

pn1j1jpn2j2j 1 π(1 + µ2)

1 (1 + σ2)2

K−1

Y

j=1

ecj (1 + ecj)2. ᄌ

ᅩ건부 사후확률분포가 특정한 확률분포를따르지 않으므로, 그리드 (grid) 방법을 이용하여 사후확 류

ᆯ분포를추정한다 (Jang과 Kim, 2019; Jang 등, 2020; Nandram 등, 2011; Nandram과 Yin, 2016).

(5)

ᅳ리드 방법은 0과 1사이를 100개 구간으로 나누고, 각 구간의 중간점에서 조건부 사후확률분포 값을 ᄀ

ᅨ산하여 분포함수를근사적으로 구한 후, 임의로 구간을선택하여 해당하는구간에서 균일분포를따르 ᄂ

ᅳᆫ난수를추출하여 조건부 사후확률분포를따르는난수를생성하는방법이다.

µ의 조건부 사후확률분포는

π(µ|σ2, δ1, δ2, c, n1, n2) ∝

K

Y

j=1

pn2j2j 1 1 + µ2

ᅵ며, 여기서 p2j는 식 (2.3)이다. µ의 범위가 (−∞, ∞)이므로 ν = eµ/(1 + eµ)와 같이 변환하면 ν의 ᄇ

ᅥᆷ위는 (0, 1)가 되며, 그리드 방법을이용하여 ν를생성할 수 있다.

σ2의 조건부 사후확률분포는

π(σ2|µ, δ1, δ2, c, n1, n2) ∝

K

Y

j=1

pn2j2j 1 (1 + σ2)2

ᅩ, p2j는 식 (2.3)이다. 그리드 방법을이용하여 σ2을생성하기 위하여, τ = σ2/(1 + σ2)로 변환하면 0 < τ < 1가된다.

δ1과 δ2의 조건부 사후확률분포는

π(δ1|µ, σ2, δ2, c, n1, n2) ∝

K

Y

j=1

pn1j1jpn2j2j,

π(δ2|µ, σ2, δ1, c, n1, n2) ∝

K

Y

j=1

pn2j2j

ᅵ며, 여기서 p1j와 p2j는 식 (2.2)와 (2.3)이다. −1 < δ1< 1, −1 < δ2 < 1이므로, 그리드 방법을이용 ᄒ

ᅡ여 δ1과 δ2를생성할 수 있다.

ᅡ지막으로 경계값 cj의 조건부 사후확률분포는 π(cj|µ, σ2, δ1, δ2, n1, n2) ∝ ecj

(1 + ecj)2pn1j1jpn1,j+11,j+1pn2j2jpn2,j+12,j+1

ᅵ며, 여기서 p1j와 p2j는 식 (2.2)와 (2.3)이다. −∞ < c1 < c2 < · · · < cK−1 < ∞이므로 tj = ecj/(1 + ecj)로 변환하면, 0 < t1< t2< · · · < tc−1< 1, j = 1, · · · , K − 1이 되며, 그리드 방법을이용 ᄒ

ᅡ여 cj를생성할 수 있다.

ᅡ르코브 연쇄 몬테칼로 (Markov chain Monte Carlo, MCMC) 알고리즘의 수렴은트레이스 (trace) ᄀ

ᅳ림과 자기상관그림을이용하여확인하였으며, Geweke 검정을이용하여 전체 반복의 초기 10%와 마 ᄌ

ᅵ막 50%의 평균을비교하여 수렴여부를확인하였다 (Geweke, 1992).

ᅩ건부 사후확률분포를이용하여 모수 추정 후 ROC 곡선은 ROC(u) = 1 − F2(F1−1(1 − u)), 0 ≤ u ≤ 1로 추정할 수 있으며, AUC는 ROC(u) = 1 − F2(F1−1(1 − u)), 0 ≤ u ≤ 1로 계산할 수 있다.

3. 자료분석

Van Dyke 등(1993)에서는 69명의 흉부 대동맥 박리가 없는그룹과 45명의 흉부 대동백 박리가 있는 ᄀ

ᅳ룹을 대상으로 자기공명영상 (magnetic resonance imaging, MRI) 검사를 실시하였다. 4명의 방사 ᄉ

ᅥᆫ전문의는각각 검사결과를 1=질병이 명백히 없는경우, 2=질병이 아마도 없는경우, 3=질병 가능성

(6)

Table 3.1 MRI data

Radiologist Non-diseased individuals Diseased individuals

1 2 3 4 5 1 2 3 4 5

1 47 9 10 2 1 4 1 2 10 28

2 0 60 6 2 1 0 10 4 6 25

3 21 35 5 6 2 0 8 1 2 34

4 39 19 9 1 1 7 7 3 5 23

ᅵ 있는경우, 4=질병이 아마도 있는경우, 5=질병이 명백히 있는경우로 평가하였으며, 자료는 Table 3.1과 같다.

ᄌ ᅡ

ᆷ재변수의 분포로 정규분포를 고려한 베이지안 모형 (Jang과 Kim, 2019)과 왜정규분포를 고려한 ᄆ

ᅩ형을이용하여 Table 3.1의 각 방사선전문의에 대한 자료분석을 실시하였다. MCMC 계산에서 초기 ᄎ

ᅵ의 영향을제거하기 위해 초기 10,000개의 난수 제거하고, 5번째 값을선택하여 총 10,000개의 난수를 새

ᆼ성하여 사후확률분포를추정하였다.

ᅮ정된사후확률분포를이용하여 AUC의 사후평균, 사후표준편차, 신용구간, 최고사후밀도 (highest posterior density, HPD) 신용구간을구하면 Table 3.2와 같다. 왜정규분포를이용한 모형과 정규분포 르

ᆯ이용한 모형에서 AUC의 사후평균은비슷하게 추정되었으며, 사후표준편차는 2번째, 4번째 방사선 ᄌ

ᅥᆫ문의의 경우 정규분포를이용한 모형보다 왜정규분포를이용한 모형에서 조금낮게 추정되었다. 신용 ᄀ

ᅮ간 및 HPD 신용구간의 폭도 2번째, 4번째 방사선전문의의 경우 정규분포를이용한 모형보다 왜정규 부

ᆫ포를이용한 모형에서 조금작게 추정되었다.

Table 3.2 Posterior mean (PM), standard deviation (PSD), 95% credible intervals (CI) and highest posterior density (HPD) CI of the area under the curve for the MRI data

Radiologist Model using the skew normal distribution Model using the normal distribution

PM PSD 95% CI 95% HPD CI PM PSD 95% CI 95% HPD CI

1 0.917 0.031 (0.846, 0.966) (0.856, 0.972) 0.920 0.029 (0.852, 0.965) (0.861, 0.969) 2 0.880 0.037 (0.801, 0.944) (0.806, 0.948) 0.875 0.041 (0.783, 0.943) (0.794, 0.950) 3 0.913 0.033 (0.836, 0.965) (0.845, 0.970) 0.910 0.032 (0.836, 0.960) (0.845, 0.964) 4 0.832 0.041 (0.750, 0.906) (0.758, 0.913) 0.821 0.043 (0.737, 0.899) (0.736, 0.897)

저

ᆼ규분포를이용한 모형과 왜정규분포를이용한 모형의 ROC 곡선은비슷하게 추정되었으며, 3번째, 4번째 방사선전문의의 경우 왜정규분포를이용한 모형의 ROC 곡선이 정규분포를이용한 모형의 ROC ᄀ

ᅩᆨ선에 비해 조금치우쳐 있는것을알 수 있다 (Figure 3.1). Figure 3.2에서 AUC의 분포도 두 모형에 ᄉ

ᅥ 비슷하게 추정된 것을알 수 있다.

Table 3.3 Deviance information criterion for model comparison

Radiologist Model using the skew normal distribution Model using the normal distribution

1 41.473 41.162

2 29.350 28.915

3 39.164 38.188

4 43.368 39.804

(7)

Figure 3.1 The ROC curves of the model using the skew normal distribution (dash line) and the model using the normal distribution (dotted line) for the MRI data

Figure 3.2 The posterior densities of AUCs of the model using the skew normal distribution (dash line) and the

model using the normal distribution (dotted line) for the MRI data

(8)

저

ᆼ규분포를이용한 모형과 왜정규분포를이용한 모형을 비교하기 위하여 Spiegelhalter 등 (2002)이 ᄌ

ᅦ안한 DIC (deviance information criterion)를사용하였다.

DIC = 2 ¯D − D(¯p1, ¯p2), ᄋ

ᅧ기서 p(h)1j 와 p(h)2j 가 깁스샘플러의 h번째 반복에서 추정되는값이라고 할 경우, ¯p1j =PH

h=1p(h)1j /H,

¯

p2j=PH

h=1p(h)2j /H, j = 1, · · · , K, h = 1, · · · , H이고,

D(¯p1, ¯p2) = −2 log {p(n1, n2|¯p1, ¯p2)} , D = −2¯

H

X

h=1

logn

p(n1, n2|¯p(h)1 , ¯p(h)2 )o /H

ᅡ된다. DIC 값이 작을수록모형의 적합도가 더 좋다는것을나타내는데, 4번째 방사선전문의 경우 정 ᄀ

ᅲ분포를 이용한 모형의 DIC가 좀더 작았으며, 나머지 방사선전문의의 경우 DIC가 비슷하게 나왔다 (Table 3.3).

4. 결론 보

ᆫ연구에서는 진단검사의 결과가 순서형 자료로 주어지는경우 잠재변수의 분포를왜정규분포로 고 ᄅ

ᅧ하는 베이지안 모형에서 적절한 ROC 곡선을추정하기 위하여확률적 순서화를고려하는 모형을 소 ᄀ

ᅢ하였다. Jang과 Kim (2019)에서는정규분포를잠재변수의 분포로 고려하고확률적 순서화를이용하 ᄋ

ᅧ 적절한 ROC 곡선을추정하였는데, 본 연구에서 잠재변수의 분포가 치우친 경우를고려할 수 있는 ᄋ

ᅫ정규분포를이용한 베이지안 모형을추정하였다. 그리고 기존의 정규분포를이용한 모형을 실제 자료 ᄋ

ᅦ 적합하여 비교한 결과, 모형적합에 이용한 자료의 경우 정규분포를이용한 모형과 왜정규분포를이용 ᄒ

ᅡᆫ 모형 추정 결과가 크게 차이가 없었는데, 왜정규분포가 정규분포를포함하고 있으므로 자료의 치우친 저

ᆼ도가 크지 않은경우 모형적합의 결과 차이가 크지 않을가능성이 있다. 하지만 왜정규분포를이용한 ᄆ

ᅩ형의 경우 좀더 포괄적인 모형으로 치우친 정도가큰자료의 적합에도 적용할 수 있다는데 의미가 있 ᄃ

ᅡ고 할 수 있다. 추가적으로 모형적합에 이용한 자료는여러 명의 평가자가 여러 개의 검사결과를평가 ᄒ

ᅡᆫ 연구이므로 상관관계를고려한 모형을후속연구로 고려할 수 있다.

References

Azzalini, A. (1985). A class of distributions which includes the normal ones. Scandinavian Journal of Statistics, 12, 171-178.

Azzalini, A. (1986). Further results on a class of distributions which includes the normal ones. Statistica, 46, 199-208.

Azzalini, A. (2017). Package ‘sn’, Available online: http://azzalini.stat.unipd.it/SN/sn-manual.pdf (accessed on 1 December 2020).

Azzalini, A. and Capitanio, A. (2014). The skew-normal and related families, Cambridge University Press, Cambridge.

Dorfman, D. D. and Alf, E. (1969). Maximum likelihood estimation of parameters of signal detection theory and determination of confidence intervals: Rating method data. Journal of Mathematical Psychology, 6, 487-496.

Dorfman, D. D., Berbaum, K. S., Metz, C. E., Lenth, R. V., Hanley, J. A. and Abu Dagga, H. (1996). Proper receiver operating characteristic analysis: The bigamma model. Academic Radiology, 4, 138-149.

Gelfand, A. E. and Kottas, A. (2001). Nonparametric Bayesian modeling for stochastic order. Annals of

the Institute of Satistical Mathematics, 53, 865-876.

(9)

Gelman, A. (2006). Prior distribution for variance parameters in hierarchical models. Bayesian Analysis, 1, 515-533.

Gelman, A., Jakulin, A., Grazia, P. and Su, Y. (2008). A weakly informative default prior distribution for logistic and other regression models. The Annals of Applied Statistics, 2, 1360-1383.

Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches to calculating posterior moments.

In Bernardo, J. M., Berger, J., Dawid, A. P. and Smith, J. F. M. (Eds.), Bayesian Statistics, 4, Claredon Press, Oxford, 169-194.

Hanley, J. A. (1988). The robustness of the “binormal” assumptions used in fitting ROC curves. Medical Decision Making, 8, 197-203.

Hanson, T. E., Kottas, A. and Branscum, A. J. (2008). Modelling stochastic order in the analysis of receiver operating characteristic data: Bayesian non-parametric approaches. Journal of Applied Statistics, 57, 207-225.

Hong, C. S. and Lee, S. J. (2018). TROC curve and accuracy measures. Journal of the Korean Data &

Information Science Society, 29, 861-872.

Hong, C. S. and Choi, S. Y. (2020). ROC curve generalization and AUC. Journal of the Korean Data &

Information Science Society, 31, 477-488.

Hughes, G. and Bhattacharya, B. (2013). Symmetry properties of bi-normal and bi-gamma receiver oper- ating characteristic curves are described by Kullback-Leibler divergences. Entropy, 15, 1342-1356.

Hwang, B. S. and Chen, Z. (2015). An integrated Bayesian nonparametric approach for stochastic and variability orders in ROC curve estimation: An application to endometriosis diagnosis. Journal of the American Statistical Association, 110, 923-934.

Ishwaran, H. and Gatsonis, A. C. (2000). A general class of hierarchical ordinal regression models with applications to correlated ROC analysis. The Canadian Journal of Statistics, 28, 731-750.

Jang, E. J. and Kim, D. H. (2019). Bayesian hierarchical model for the estimation of proper receiver operating characteristic curves using stochastic ordering. Communications for Statistical Applications and Methods, 39, 1514-1528.

Jang, E. J., Nandram, B., Ko, Y. and Kim, D. H. (2020). Small area estimation of receiver operating characteristic curves for ordinal data under stochastic ordering. Statistics in Medicine, 25, 1858-1871.

Johnson, T. D. and Johnson, V. E. (2006). A Bayesian hierarchical approach to multirater correlated ROC analysis. Statistics in Medicine, 25, 1858-1871.

Metz, C. E. (1989). Some practical issues of experimental design and data analysis in radiological ROC studies. Investigative Radiology, 24, 243-245.

Metz, C. E., Herman, B. A. and Shen, J. (1998). Maximum likelihood estimation of receiver operating characteristic (ROC) curves from continuously-distributed data. Statistics in Medicine, 17, 1033-1053.

Metz, C. E. and Pan, X. (1999). “Proper” binormal ROC curves: Theory and maximum-likelihood esti- mation. Journal of Mathematical Psychology, 43, 1-33.

Mossman, D. and Peng, H. (2016). Using dual beta distributions to create “Proper” ROC curves based on rating category data. Medical Decision Making, 36, 349-365.

Nandram, B., Bhatta, D., Bhadra, D. and Shen, G. (2013). Bayesian predictive inference of a finite popu- lation proportion under selection bias. Statistical Methodology, 11, 1-21.

Nandram, B. and Peiris, T. B. (2018). Bayesian analysis of a ROC curve for categorical data using a skew-binormal model. Statistics and Its Interface, 11, 369-384.

Nandram, B., Toto, M. C. S. and Choi, J. W. (2011). A Bayesian benchmarking of the Scott-Smith model for small areas. Journal of Statistical Computation and Simulation, 81, 1593-1608.

Nandram, B. and Yin, J. (2016). A nonparametric Bayesian prediction interval for a finite population mean.

Journal of Statistical Computation and Simulation, 86, 1-17.

Peng, F. and Hall, W. J. (1996). Bayesian analysis of ROC curves using Markov-chain Monte Carlo methods.

Medical Decision Making, 16, 404-411.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P. and van der Linde A. (2002). Bayesian measures of model complexity and fit (with discussion). Journal of the Royal Statistical Society, Series B , 64, 583-539.

Swets, J. A. (1986). Form of empirical ROCs in discrimination and diagnostic tasks: implications for theory and measurement of performance. Psychological Bulletin, 99, 181-198.

Van Dyke, C. W., White, R. D., Obuchowski, N. A. Geisinger, M. A., Lorig, R. J. and Meziane, M. A, (1993). Cine MRI in the diagnosis of thoracic aortic dissection. 79th RSNA Meetings, Chicago, IL.

Wang, C., Turnbull, B. W., Gr¨ ohn, Y. T. and Nielsen, S. S. (2007). Nonparametric estimation of ROC

curves based on Bayesian models when the true disease state is unknown. Journal of Agricultural,

Biological, and Environmental Statistics, 12, 128-146.

(10)

2021, 32

(

1)

,

15–24

Bayesian model for the receiver operating characteristic curve using the skew normal distribution

Eun Jin Jang

1

· Dal Ho Kim

2

1Department of Information Statistics, Andong National University

2Department of Statistics, Kyungpook National University

Received 29 December 2020, revised 8 January 2021, accepted 15 January 2021

Abstract

The results of diagnostic tests for disease diagnosis are measured by continuous or ordinal data. The performance of diagnostic tests usually be summarized using the receiver operating characteristic (ROC) curve and the area under the curve. The diag- nostic tests are clinically useful when the test results in the diseased group are higher than those in the non-diseased group, in which case the ROC curve is called a proper ROC curve. In this study, we consider the skew normal distribution for the latent vari- ables of ordinal data and the stochastic ordering methods to estimate the proper ROC curve in Bayesian model, and apply them to the real data.

Keywords: Bayesian model, diagnostic test, ordinal data, receiver operating character- istic curve, skew normal distribution.

This work was supported by a Research Grant of Andong National University.

1

Associate professor, Department of Information Statistics, Andong National University, Andong 36729, Korea.

2

Corresponding author: Professor, Department of Statistics, Kyungpook National University, Daegu

41566, Korea. E-mail: [email protected]

수치

Table 3.2 Posterior mean (PM), standard deviation (PSD), 95% credible intervals (CI) and highest posterior density (HPD) CI of the area under the curve for the MRI data
Figure 3.2 The posterior densities of AUCs of the model using the skew normal distribution (dash line) and the model using the normal distribution (dotted line) for the MRI data

참조

관련 문서