2019, 30
(4)
,759–770
부분 AUC와 VUS를 최대화하는 선형결합 스코어에 대한 최적분류점 구간
ᄒ
ᅩᆼ종선
1
· 전해선2
· 신혜수3
123성균관대학교 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 26ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 12ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ
요 약
ᄒ
ᅧ ᆫᄉ ᅵ ᆯᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄇ ᅮ ᆫ ᄅ ᅲᄆ ᅩᄒ ᅧ ᆼᄋ ᅦᄉ ᅥ ᄉ ᅳᄏ ᅩᄋ ᅥ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄉ ᅥ ᆫᄒ ᅧ ᆼᄀ ᅧ ᆯᄒ ᅡ ᆸᄋ ᅳᄅ ᅩ ᄑ ᅭᄒ ᅧ ᆫᄃ ᅬᄂ ᅳ ᆫ ROC ᄀ ᅩ ᆨᄉ ᅥ ᆫ ᄄ ᅩᄂ ᅳ ᆫ ᄀ ᅩ ᆨᄆ ᅧ ᆫᄋ ᅦᄉ ᅥ AUC (area under the ROC curve) ᄄ ᅩᄂ ᅳ ᆫ VUS (volume under the ROC surface)ᄅ ᅳ ᆯ ᄎ ᅬᄃ ᅢᄒ ᅪᄒ ᅡᄂ ᅳ ᆫ ᄉ
ᅥ ᆫᄒ ᅧ ᆼᄀ ᅨᄉ ᅮᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄀ ᅪ ᄐ ᅳ ᆨᄌ ᅥ ᆼ ᄀ ᅮᄀ ᅡ ᆫᄋ ᅴ ᄇ ᅮᄇ ᅮ ᆫ AUCᄅ ᅳ ᆯ ᄎ ᅬᄃ ᅢᄒ ᅪᄒ ᅡᄂ ᅳ ᆫ ᄉ ᅥ ᆫᄒ ᅧ ᆼᄀ ᅨᄉ ᅮᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ ᄀ ᅪ ᆫ ᄒ ᅡ ᆫ ᄆ
ᅡ
ᆭᄋ ᅳ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄆ ᅮ ᆫᄒ ᅥ ᆫᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅩ ᆼᄋ ᅵ ᆯᄒ ᅡ ᆫ ᄀ ᅮᄀ ᅡ ᆫ ᄑ ᅩ ᆨᄋ ᅳ ᆯ ᄀ ᅡ ᆽᄂ ᅳ ᆫ ᄃ ᅡᄅ ᅳ ᆫ ᄇ ᅮᄇ ᅮ ᆫ AUCᄃ ᅳ ᆯ ᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄑ ᅭ ᄌ
ᅮ ᆫ ᄒ ᅪ ᄃ ᅬ ᆫ ᄇ ᅮᄇ ᅮ ᆫ AUC ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄀ ᅩ, ᄋ ᅵᄅ ᅳ ᆯ ᄇ ᅡᄐ ᅡ ᆼᄋ ᅳᄅ ᅩ ᄑ ᅡ ᆫᄇ ᅧ ᆯᄅ ᅧ ᆨᄋ ᅵ ᄂ ᅩ ᇁᄋ ᅳ ᆫ ᄀ ᅮᄀ ᅡ ᆫᄋ ᅦᄉ ᅥᄋ ᅴ ᄉ ᅥ ᆫᄒ ᅧ ᆼᄀ ᅨᄉ ᅮᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄃ
ᅢᄋ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄇ ᅮᄇ ᅮ ᆫ AUC ᄌ ᅥ ᆸᄀ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅳᄅ ᅵᄀ ᅩ ROC ᄀ ᅩ ᆨᄆ ᅧ ᆫᄋ ᅴ ᄇ ᅮᄇ ᅮ ᆫ VUS ᄌ ᅥ ᆸᄀ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ ᄒ ᅪ ᆨ ᄌ ᅡ ᆼᄒ ᅡᄀ ᅩ, ᄑ ᅡ
ᆫᄇ ᅧ ᆯᄅ ᅧ ᆨᄋ ᅵ ᄀ ᅡᄌ ᅡ ᆼ ᄂ ᅩ ᇁᄋ ᅳ ᆫ ᄀ ᅮᄀ ᅡ ᆫᄋ ᅦ ᄎ ᅬᄌ ᅥ ᆨᄋ ᅴ ᄃ ᅮ ᄇ ᅮ ᆫ ᄅ ᅲᄌ ᅥ ᆷᄋ ᅵ ᄌ ᅩ ᆫ ᄌ ᅢᄒ ᅡ ᆷᄋ ᅳ ᆯ ᄐ ᅡ ᆷᄉ ᅢ ᆨᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄆ ᅵ ᆫᄀ ᅡ ᆷᄃ ᅩ, ᄇ ᅮ ᆫ ᄅ ᅲᄌ ᅥ ᆷ, ᄐ ᅳ ᆨ ᄋ ᅵᄃ ᅩ, AUC, TPR, VUS.
1. 서론
ROC 곡선 (receiver operating characteristic curve)과 ROC 곡면 (surface)은의학진단이나 신용평 ᄀ
ᅡ에서 각각 두 개 그리고 세 개의 범주로 분류하는모형의 성능을탐색하는유용한 시각적인 방법이다.
이
ᆯ반적인 ROC 곡선은모든 분류점에 의한 정분류율과 오분류율의 변화를그리고 ROC 곡면은정분류 ᄋ
ᅲᆯ의 변화를 시각적으로 표현하지만, 본연구에서는 일관성을유지하기 위하여 ROC 곡선도 정분류율 ᄋ
ᅴ 변화로 표현한다. 즉,가능한 모든 분류점에 대한 민감도 (sensitivity, true negative ratio: TNR)와 ᄐ
ᅳ
ᆨ이도 (specificity, true positive ratio: TPR)로 구현한다.
ROC 곡선 아래 면적과 ROC 곡면 아래 부피를 이용하여 분류모형의 판별력을 측정하는 통계량인 AUC (area under the ROC curve)와 VUS (volume under the ROC surface)에 관한 많은 연구가 이
ᆻ다 (Hosmer와 Lemeshow, 2000; Joseph, 2005; Wandishin과 Mullen, 2009; Hong과 Jung, 2014;
Hong과 Cho, 2015). 부분 AUC (partial AUC: pAUC)와 부분 VUS (partial VUS: pVUS)는 각각 AUC와 VUS의 일부분의 면적과 부피를의미하며 분류모형의 성능을평가할 수 있다 (Dodd와 Pepe, 2003; Hong 등, 2019).
이
ᆯ반적으로 사용하는 분류모형에서는여러 개의확률변수들의 선형결합으로 이루어진 스코어 (score) ᄒ
ᅡᆷ수 (선형결합 biomarker)를사용한다 (Pepe 등, 2006; Hong 등, 2015; Hong과 Won, 2016). ROC 곡
1
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
2
(03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡ.
3
(03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡ.
ᄉ
ᅥᆫ의 불변성 성질 (invariance property)을기반으로 절편이 없으며 |β1| = 1로 설정하였다. p(≥ 2)개 ᄋ
ᅴ확률변수에 대한 선형결합 스코어 함수는다음과 같다.
Lβ(Xi) = β1Xi1+ β2Xi2+ · · · + βpXip, i = 1, 2, . . . , K.
p차원의 다변량 정규분포를따르는두 개의확률변수 X1 ∼ M V N (µ1, Σ1), X2 ∼ M V N (µ2, Σ2)에 ᄃ
ᅢ한 각각의 선형결합 스코어 함수는다음과 같은 일변량 정규분포를따른다.
Lβ(X1) = βtX1∼ N (βtµ1, βtΣ1β), Lβ(X2) = βtX2∼ N (βtµ2, βtΣ2β), ᄋ
ᅧ기서 β = (β1 β2. . . βp)t. 선형결합 스코어 함수를이용한 AUC와 VUS는다음과 같다.
AU Cβ= P (Lβ(X1) ≤ Lβ(X2)), V U Sβ= P (Lβ(X1) ≤ Lβ(X2) ≤ Lβ(X3)).
ROC 곡선에서 AUC를 최대화하는 선형계수 β를 추정하는 방법 ( ˆβ = argmax AU Cβ)을 AUC 저
ᆸ근방법이라고 한다 (Pepe와 Thompson, 2000; Ma와 Huang, 2005; Pepe 등, 2006; Huang 등, 2011; Hong과 Won, 2016). Su와 Liu (1993)은 정규가정에서 두 분포의 공분산 행렬이 비례한다면 Fisher의 선형 판별식 (linear discriminant)으로 추정한 선형계수 β가 AUC를최대화한다는것을보였 ᄃ
ᅡ. Hsu와 Hsueh (2013)가 제안한 pAUC 접근방법은 특정 구간 (0, u)의 pAUC를최대화하는 β를추 저
ᆼ하는방법 ( ˆβ = argmax AU Cβ(0, u))이다 (Liu 등, 2005; Hsu 등, 2014; Yu와 Park, 2015; Yan 등, 2017). Hsu와 Hsueh (2013)는 pAUC를최대화하는선형 계수를찾기 위해 pAUC를 β에 대해 1차 미 부
ᆫ하여 얻어진 방정식의 해를구하는방법을제안하였다.
ROC 곡면에서 VUS를최대화하는 β를추정하는방법 ( ˆβ = argmax V U Sβ)을 VUS 접근방법이라 ᄀ
ᅩ 한다 (Zhang 과 Li, 2011; Hong 등, 2015). Zhang과 Li (2011)는정규분포 가정에서 VUS를최대화 ᄒ
ᅡ는선형계수를추정하기 위해 VUS를 β에 대해 1차 미분하여 얻어진 방정식의 해를구하는방법을제 ᄋ
ᅡᆫ하였다.
AUC 접근방법에서 TPR의 전체 구간에 대한 정보가 없을 때에는 (0, u)이 아닌 특정 구간에서 pAUC 접근방법에관한 연구가 필요하다. 특정 구간에서의 pAUC는 구간이 넓을수록 그리고 TPR이 0에 가까울수록커지므로, 다른구간에서의 pAUC를비교할 수 있는대안적인 통계량이 필요하다. 또 ᄒ
ᅡᆫ 기존 문헌의 pAUC 접근방법은최적분류점 (threshold, cutoff point)에 대한 논의가 없는데 본연구 ᄋ
ᅦ서는제안한 pAUC 접근방법과 최적분류점의관계를유도하고자 한다.
보
ᆫ연구에서는다른구간이지만 구간 폭이 일정한 경우의 pAUC 통계량을비교하는대안적인 통계량 으
ᆯ제시한 뒤, 이를 통해 판별력이 높은구간의 선형계수를추정하는 pAUC 접근방법을제안한다. 또한 pAUC 접근방법을 ROC 곡면의 VUS로확장해 pVUS 접근방법을제안하고, 판별력이 높은구간의 선 혀
ᆼ계수를추정하고 최적분류점과의관계를유도한다.
노
ᆫ문의 구성은다음과 같다. 2절에서는 Hsu와 Hsueh (2013)가 제안한 pAUC 접근방법에서 TPR의 저
ᆼ보 부재로 0 또는 1이 포함되지 않은 특정 구간에서의 pAUC 접근방법을 제안한다. 또, 구간 폭이 이
ᆯ정한 경우의 pAUC 통계량을비교하는 대안적인 pAUC 통계량을제시한다. 이러한 새로운 pAUC ᄐ
ᅩ
ᆼ계량을이용하여 판별력이 높은구간을발견하는알고리즘을제안하여 해당 구간에서 선형계수를 추 저
ᆼ한다. 모의실험을 통해 대안적인 pAUC 통계량이 최대인 구간에 최적분류점이 포함되어 있는지를 ᄐ
ᅡ
ᆷ색한다. 3절에서는 ROC 곡면으로확장하여 pVUS 접근방법을 제안하고, 판별력이 높은 구간을 찾 ᄋ
ᅡ pVUS 접근방법으로 선형계수를 추정한다. 또한, 판별력이 높은 구간에 최적의 두 분류점이 포함 ᄃ
ᅬ어 있음을모의실험을 통해 살펴본다. 4절에서는 본 연구에서 제안한 방법을 실증예제를 통해 탐색 ᄒ
ᅡ고 마지막 5절에서는 본 연구의 결론을유도하고 제안한 pAUC와 pVUS 접근방법을 ROC 다면체 (manifold)로확장하여 부분 hyper-volume under the ROC manifold (HUM) 접근방법으로확장할 수 이
ᆻ음을향후 연구과제로 언급한다.
2. 표준화된 pAUC 접근방법
2.1. 표준화된 pAUC 접근방법 ᄇ
ᅮ분 AUC (partial AUC: pAUC) 통계량의 구간을 (0, u)로 설정하였는데, 본 연구에서는전체적인 여
ᆼ역에서 TPR의 정보를 모르고 (특히 0 또는 1에 가까운부분에서 정보의 부재) 파악이 가능한 부분 여
ᆼ역 (a, b)인 범위만 알고 있는현실적인 상황을가정한다. 이런 경우에서는초기값 u부터 동일한 간격 d로 나누어 TPR의 구간을 a ≤ u < u + d < · · · < u + (i − 1)d < u + id < · · · ≤ b로 설정한다. 여기 ᄉ
ᅥ i번째 구간에 대응하는 pAUC를 pAU Cβ(i; u, d) ≡ pAU Cβ(u + (i − 1)d, u + id) (i = 1, 2, . . .)로 ᄑ
ᅭ기한다. i번째의 pAUCβ(i; u, d)의 크기는 Figure 2.1 (a)에서와 같이 항상 i − 1번째 구간의 크기보 ᄃ
ᅡ 작으며 i + 1번째 구간의 크기보다 크므로, Hsu와 Hsueh (2013)가 제안한 pAUC 접근방법을적용하 ᄆ
ᅧᆫ, 판별력이 가장 높은구간의 pAUC는언제나 ROC 곡선의 수평축인 TPR이 0에 가까운구간에 대 ᄒ
ᅡᆫ pAUC가된다.
ᄋ
ᅵ러한 한계점을보완하기 위해 선형결합 스코어의 판별력을비교하는방법으로 pAUC 통계량 대신 ROC곡선과 대각선 사이의 면적만을고려하는 pAUC 통계량을다음과 같이 제안하고, 이를 ‘표준화된 pAUC 통계량 (standardized pAUC)’이라고 하고, pAUCβ∗(i; u, d)로 표기한다.
ᄌ ᅡ
ᆯ 알려진 분류 정확도 측도들 (accuracy measures) 중에서 Youden Index (Youden, 1950), Sum of sensitivity and specificity (Connell과 Koepsell, 1985), The amended closest-to-(0,1) criterion (Perkins와 Schisterman, 2006), Balanced accuracy (Velez 등, 2007), Maximum vertical distance (Krazanowski와 Hand, 2009), True rate (Yoo와 Hong, 2011) 들은 Kolmogorov - Smirnov 검정통 ᄀ
ᅨ량과 일차함수관계를갖고 있으며, 이는 ROC 곡선 함수에서 대각선까지의 거리에 대한 통계량으로 sensitivity − specif icity = T N R − (1 − T P R) = FLβ(X1)(·) − FLβ(X2)(·)이다. 따라서 표준화된 pAUC 통계량 pAUCβ∗(i; u, d)는 동일한 구간 폭을갖는 i번째 구간에서 이러한 분류 정확도 측도들의 ᄌ
ᅥ
ᆨ분식으로 표현되며, pAUCβ(i; u, d)에서 대각선 아래의 사다리형태의 면적을 뺀 것이므로 정의 2.1과 ᄀ
ᅡ
ᇀ이 제안하고 Figure 2.1 (b)에서 표현하였다.