2021, 32
(1)
,1–14
최소최대 조합방법을 이용한 부분 AUC와 VUS
ᄒ
ᅩᆼ종선
1
· 임동휘2
12성균관대학교 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 18ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 7ᄋ ᅵ ᆯ
요 약
ᄃ
ᅮ ᄇ ᅥ ᆷᄌ ᅮᄋ ᅪ ᄉ ᅦ ᄇ ᅥ ᆷᄌ ᅮᄋ ᅴ ᄑ ᅡ ᆫᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄀ ᅡ ᆨᄀ ᅡ ᆨ ᄑ ᅧ ᆼᄀ ᅡᄒ ᅡᄂ ᅳ ᆫ AUC (area under the ROC curve), ᄇ ᅮ ᄇ
ᅮ ᆫ AUCᄋ ᅪ ᄋ ᅣ ᆼᄇ ᅡ ᆼᄒ ᅣ ᆼ ᄇ ᅮᄇ ᅮ ᆫ AUC ᄀ ᅳᄅ ᅵᄀ ᅩ VUS (volume under ROC surface), ᄇ ᅮᄇ ᅮ ᆫ VUSᄋ ᅪ ᄉ ᅦᄇ ᅡ ᆼᄒ ᅣ ᆼ ᄇ ᅮᄇ ᅮ ᆫ VUSᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄆ ᅵ ᆯᄃ ᅩᄒ ᅡ ᆷᄉ ᅮᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅥᄂ ᅡ ᄇ ᅵᄆ ᅩᄉ ᅮᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄋ ᅵ ᄋ ᅵ ᆻ ᄃ
ᅡ. ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄇ ᅧ ᆫᄉ ᅮᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄆ ᅡ ᆭᄋ ᅳ ᆫ AUC ᄎ ᅮᄌ ᅥ ᆼᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄌ ᅮ ᆼ ᄋ ᅦᄉ ᅥ ᄎ ᅬᄉ ᅩᄎ ᅬᄃ ᅢ ᄌ ᅩᄒ ᅡ ᆸᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄃ ᅳ ᆯ ᄋ ᅴ ᄎ ᅬᄃ ᅢᄀ ᅡ ᆹᄀ ᅪ ᄎ
ᅬᄉ ᅩᄀ ᅡ ᆹᄋ ᅴ ᄌ ᅩᄒ ᅡ ᆸᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄆ ᅵ ᆫᄀ ᅡ ᆷᄃ ᅩᄋ ᅪ ᄐ ᅳ ᆨ ᄋ ᅵᄃ ᅩᄅ ᅳ ᆯ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄀ ᅩ, AUC ᄄ ᅩᄂ ᅳ ᆫ ᄇ ᅮᄇ ᅮ ᆫ AUCᄅ ᅳ ᆯ ᄎ ᅬᄃ ᅢᄒ ᅪᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫ ᄀ
ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄎ ᅬᄉ ᅩᄎ ᅬᄃ ᅢ ᄌ ᅩᄒ ᅡ ᆸᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄎ ᅬᄃ ᅢᄒ ᅪᄒ ᅡᄂ ᅳ ᆫ VUSᄅ ᅳ ᆯ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄀ ᅩ, ᄂ ᅡᄋ ᅡᄀ ᅡ ᄎ ᅬᄉ ᅩᄎ ᅬᄃ ᅢ ᄌ ᅩᄒ ᅡ ᆸᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄇ ᅮ ᄇ
ᅮ ᆫ AUCᄋ ᅪ ᄋ ᅣ ᆼᄇ ᅡ ᆼᄒ ᅣ ᆼ ᄇ ᅮᄇ ᅮ ᆫ AUC, ᄇ ᅮᄇ ᅮ ᆫ VUSᄋ ᅪ ᄉ ᅦᄇ ᅡ ᆼᄒ ᅣ ᆼ ᄇ ᅮᄇ ᅮ ᆫ VUSᄅ ᅳ ᆯ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄆ ᅧ ᄀ ᅡ ᆨᄀ ᅡ ᆨᄋ ᅴ ᄇ ᅮ ᆫ ᄑ ᅩᄒ ᅡ ᆷᄉ ᅮᄋ ᅦ ᄃ ᅢᄋ ᅳ ᆼ ᄒ ᅡ ᄂ
ᅳ ᆫ ᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄆ ᅵ ᆯᄃ ᅩᄒ ᅡ ᆷᄉ ᅮᄅ ᅩ ᄑ ᅭᄒ ᅧ ᆫᄒ ᅡᄀ ᅩ ᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡ ᆫᄃ ᅡ. ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅦᄉ ᅥ ᄉ ᅥ ᆯᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄆ ᅵ ᆯᄃ ᅩᄒ ᅡ ᆷᄉ ᅮᄃ ᅳ ᆯ ᄋ
ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ, ᄋ ᅣ ᆼᄇ ᅡ ᆼᄒ ᅣ ᆼ ᄇ ᅮᄇ ᅮ ᆫ AUCᄋ ᅪ ᄉ ᅦᄇ ᅡ ᆼᄒ ᅣ ᆼ ᄇ ᅮᄇ ᅮ ᆫ VUSᄅ ᅳ ᆯ ᄀ ᅮᄒ ᅡᄀ ᅩ, ᄉ ᅵ ᆯᄌ ᅳ ᆼ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄐ ᅩᄅ ᅩ ᆫ ᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄆ ᅵ ᆫᄀ ᅡ ᆷᄃ ᅩ, ᄇ ᅮᄇ ᅮ ᆫ, ᄇ ᅵᄆ ᅩᄉ ᅮ, ᄌ ᅥ ᆯᄃ ᅡ ᆫ, ᄐ ᅳ ᆨ ᄋ ᅵᄃ ᅩ.
1. 서론
ROC (receiver operating characteristic)곡선은 분류모형 또는 분류자의 성능을평가하며 이를시각 ᄒ
ᅪ하는방법으로 실제 질병을 질병으로 잘 예측한 비율인 TPR (true positive rate, hit rate, recall)과 시
ᆯ제 정상을 질병으로 잘못예측하는비율인 FPR (false positive rate, false alarm rate)을각각 수직축 과 수평축에 구현한다. 그리고 일반적으로 TPR은 민감도 (sensitivity)라 하며, 임의의 분류점 c에 대 ᄒ
ᅡ여 질병인확률변수 X1의 누적분포함수는 FX1(c)로 표현하고, FPR은 1-특이도 (1-specificity)라고 ᄒ
ᅡ며 정상인확률변수 X2의 누적분포함수는 FX2(c)로 나타낸다 (Metz와 Kronman, 1980; Provost와 Fawcett, 2001; Pepe, 2003; Fawcett, 2006; Tasche, 2008).
ROC 곡선 아래의 면적인 AUC (area under the ROC curve)는 AU C = P r(X1 ≤ X2)로 정의되며, ᄑ
ᅡᆫ별 모형의 성능을평가하는 측도이다. AUC 통계량은 0.5에서 1.0까지의 범위를갖는데 1.0에 가까워 지
ᆯ수록판별력이 좋은모형이라고 할 수 있다 (Bradley, 1997; Krzanowski와 Hand, 2009; Engelmann ᄃ
ᅳᆼ, 2003; Vuk와 Curk, 2006). 세 범주를 분류할 때에는 ROC 곡면 (surface)아래의 부피인 VUS (vol- ume under the ROC surface)통계량, V US = P r(X1 ≤ X2 ≤ X3),을사용한다 (Dreiseitl 등, 2000;
Fawcett, 2003; Nakas와 Yiannoutsos, 2004; Nakas 등, 2010; Wandishin와 Mullen, 2009).
Hong과 Cho (2015)는 AUC와 VUS 그리고 ROC 다면체 (manifold)아래 면적인 HUM (hyper- volume under the ROC manifold)을 맨-휘트니 (Mann-Whitney)통계량을이용하여 비모수적인 추정
1
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
2
(03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.
으
ᆯ연구하였다. Hong 등 (2019)은적절한 구간에 제한된부분 AUC (partial AUC),양방향 부분 AUC (two-way partial AUC), 부분 VUS (partial VUS)와 세방향 부분 VUS (three-way partial VUS)에 ᄃ
ᅢ하여 비모수적 방법으로 추정하였다. 또한 Hong과 Hong (2019)은양방향 부분 AUC와 세방향 부분 VUS를절단확률밀도함수 (truncated probability density function)를이용하여 표현하였다.
ᄃ
ᅮ 종류의확률변수가 다변량확률벡터일 때 AUC를구하는방법은기존의 가능도비 조합 (likelihood- ratio combination)을 이용한 방법, 로지스틱 회귀 (logistic regression)를 이용한 방법 (Henley 와 McNeil, 1982; Su와 Liu, 1993; Heagerty와 Pepe, 1999; Liu 등, 2005; Jin과 Lu, 2009)이외에 Liu ᄃ
ᅳᆼ (2011)이 제안한 최소최대 조합방법 (min-max combination)을 이용한 방법 등이 있다. 특히 최 ᄉ
ᅩ최대 조합방법은 확률벡터 X1 = {X11, X12, ..., X1k}과 X2 = {X21, X22, ..., X2k}에서 각각의 최 ᄉ
ᅩ값과 최대값 X1,min과 X2,max 그리고 임의의 분류점 c에 대하여 민감도와 특이도를 정리하면 민 ᄀ
ᅡ
ᆷ도= P r(X1,min < c) ≥ P r(X1i < c)와 특이도= P r(X2,max > c) ≥ P r(X2i > c)이며, X1과 X2의 각각의 최대값과 최소값 X1,max와 X2,min에 대하여는 P r(X1,max < c) ≤ P r(X1i < c)와 P r(X2,min> c) ≤ P r(X2i > c)이므로 민감도나 특이도를향상시키기 위하여 최대값과 최소값을적절 ᄒ
ᅡᆫ 상수 α에 대한 조합으로 Xα= Xmax+ αXmin의 형태를이용하여 최대화하는 AU CmM(α)는다음 ᄀ
ᅪ 같이 정의하고, 맨-휘트니 통계량을이용하여 비모수적 방법으로 표현하였다.
AU CmM(α) = P r(X1,max+ αX1,min≤ X2,max+ αX2,min).
보
ᆫ 연구에서는 Liu 등 (2011)이 제안한 AUC 추정방법을세 가지 범주를 분류하는 ROC 곡면으로 화
ᆨ장한 VUS를 추정하기 위하여 최소최대 조합방법을이용하여 정의하고, 나아가 ROC 다면체에 대한 HUM으로확장 가능함을연구한다. 그리고 최소최대 조합방법을 이용한 부분과 양방향 부분 AUC 그 ᄅ
ᅵ고 부분과 세방향 부분 VUS를 Hong과 Hong (2019)이 제안한 절단확률밀도함수를이용하여 표현한 ᄃ
ᅡ. 또한 여러 종류의 AUC와 VUS를비모수적 방법인 맨-휘트니 통계량으로 정리하고, 최소최대 조합 ᄇ
ᅡᆼ법을이용한 AUC와 VUS의 함수관계식을유도한다.
보
ᆫ 논문의 구성은 다음과 같다. 2절에서는 ROC 곡선에서 최소최대 조합방법을 이용한 AUC를 ROC 곡면의 VUS로 확장하여 정의하고, 맨-휘트니 통계량으로 표현한다. 그리고 이런 정의를 ROC ᄃ
ᅡ면체의 HUM으로확장할 수 있음을설명한다. 3절에서는최소최대 조합방법을이용한 부분 AUC를 ᄋ
ᅣᆼ방향 부분 AUC로 확대하여 정의하고, 이를 맨-휘트니 통계량으로 표현하면서 절단확률밀도함수로 ᄑ
ᅭ현된 부분 AUC와 양방향 부분 AUC의 함수 관계를 3.1절과 3.2절에서 각각 유도한다. 4절에서는 ROC 곡면으로확장하여 최소최대 조합방법을이용한 부분 VUS와 세방향 부분 VUS를정의하고, 맨- ᄒ
ᅱ트니 통계량으로 표현하면서 절단확률밀도함수로 표현된 부분 VUS와 세방향 부분 VUS의 함수 관 ᄀ
ᅨ를 4.1절과 4.2절에서 살펴본다. 5절에서는다변량 정규분포를설정하여 최소최대 조합방법을이용한 ᄃ
ᅡ양한 AUC와 VUS를 맨-휘트니 통계량을 사용하여 추정하고, 이를 절단확률밀도함수를이용하여 구 ᄒ
ᅡᆫ 값들과 함수관계임을보인다. 6절에서는 AUC와 VUS에 대한 실증예제를 통해 본연구에서 제안하 ᄀ
ᅩ 유도한관계를확인한다. 마지막 7절에서는결론을유도하며 향후 연구과제에 대해 토론한다.
2. 최소최대 조합방법을 이용한 VUS ᄇ
ᅮᆫ류할 범주가 세 가지인 경우에서 ROC 곡면은 확률변수 X1, X2, X3의 누적분포함수 (cumula- tive distribution function; cdf)인 FX1(x), FX2(x), FX3(x)를 이용하여 분류점 c1과 c2에 대하여 (FX1(c1), FX2(c2)−FX2(c1), 1−FX3(c2))를각각 X, Y, Z축으로 표현한다 (Heckerling, 2001; Petal과 Markey, 2005). 본연구에서는최소최대 조합방법을이용한 AUC를확장하여 최소최대 조합방법을이 ᄋ
ᅭ
ᆼ한 VUS를정의한다.
화
ᆨ률변수 Xi, i = 1, 2, 3에 대해 Xi,max+ αXi,min≡ Xi,minmax로 표기하면, V U SmM(α)는다음과 ᄀ
ᅡ
ᇀ은확률식으로 정의한다.
Definition 2.1 최소최대 조합방법을이용한 VUS는 V U SmM(α)로 표기하고 다음과 같이 정의한 ᄃ
ᅡ.
V U SmM(α) = P r(X1,minmax≤ X2,minmax≤ X3,minmax).
ᄎ
ᅬ소최대 조합방법을이용한 V U SmM(α)를 Hong과 Cho (2015)가 제안한 맨-휘트니 통계량을이용 ᄒ
ᅡᆫ 방법으로 추정하면확률벡터 X1, X2, X3의 표본크기가 각각 n1, n2, n3인 경우에 V USM W(α)로 ᄑ
ᅭ기한다.
Lemma 2.1 V U SmM(α)를 맨-휘트니 통계량으로 추정하면 V U SM W(α)로 표기하고 다음과 같이 ᄑ
ᅭ현한다.
V U S
M W(α) = 1 n
1n
2n
3n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
2j,minmax< X
3k,minmax|X
1i,minmax< X
2j,minmax)
+ 1
2 I(X
2j,minmax< X
3k,minmax|X
1i,minmax= X
2j,minmax) + 1
2 I(X
2j,minmax= X
3k,minmax|X
1i,minmax< X
2j,minmax) + 1
2
2I(X
2j,minmax= X
3k,minmax|X
1i,minmax= X
2j,minmax) .
Proof : Hong과 Cho (2015)의 Theorem 1을이용하여
1 n
1n
2n
3n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
1i,minmax< X
2j,minmax< X
3k,minmax)
= P
n1i=1
P
n2 j=1P
n3k=1
I(X
2j,minmax< X
3k,minmax|X
1i,minmax< X
2j,minmax) n
3P
n1i=1
P
n2j=1
I(X
1i,minmax< X
2j,minmax) × P
n1i=1
P
n2j=1
I(X
1i,minmax< X
2j,minmax) n
1n
2= 1
n
1n
2n
3 n1X
i=1 n2
X
j=1 n3
X
k=1
I(X
2j,minmax< X
3k,minmax|X
1i,minmax< X
2j,minmax)
ᄋ
ᅵᆫ관계를이용하여 V USM W(α)는다음과 같이 구할 수 있다.
V U S
M W(α) = 1 n
1n
2n
3n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
1i,minmax< X
2j,minmax< X
3k,minmax)
+ 1 2
n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
1i,minmax= X
2j,minmax< X
3k,minmax)
+ 1 2
n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
1i,minmax< X
2j,minmax= X
3k,minmax)
+ 1 2
2n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
1i,minmax= X
2j,minmax= X
3k,minmax)
= 1 n
1n
2n
3n1
X
i=1 n2
X
j=1 n3
X
k=1
I(X
2j,minmax< X
3k,minmax|X
1i,minmax< X
2j,minmax)
+ 1
2 I(X
2j,minmax= X
3k,minmax|X
1i,minmax< X
2j,minmax) + 1
2 I(X
2j,minmax< X
3k,minmax|X
1i,minmax= X
2j,minmax) + 1
2
2I(X
2j,minmax= X
3k,minmax|X
1i,minmax= X
2j,minmax). □
ROC 곡선에서 곡면으로의확장과 유사한 개념을 이용하여 네 가지 범주를 분류하는 k = 4에서의 ROC다면체의 최소최대 조합방법을이용한 HUM의 정의는다음과 같고
HU MmM4 (α) = P r(X1,minmax≤ X2,minmax≤ X3,minmax≤ X4,minmax),
V U SM W(α)에서 k ≥ 5인 경우인 ROC 다면체에서 최소최대 조합방법을 이용한 HUM으로도확장가 ᄂ
ᅳ
ᆼ하다. 그리고 비모수적인 추정 방법으로 HUMM Wk (α) (k ≥ 4)도 Hong과 Cho (2015)의 연구를확 자
ᆼ하여 표현 가능하다 (Hong과 Cho, 2015 참조).
3절부터는 ROC 곡선과 곡면에서 최소최대 조합방법을이용한 AU CmM(α)와 V USmM(α)를 절단 화
ᆨ률밀도함수를이용하여 AUC, VUS를정의하며 연구를 진행한다.
3. 절단확률밀도함수로 표현한 부분 AUC와 양방향 부분 AUC ᄇ
ᅮ분 AUC (pAUC)는두 절단점 사이의 ROC 곡선의 면적을나타내며 (Scurfield, 1996; Mossman, 1999), 실제의 성능평가에서는 높은 민감도와 특이도를 동시에 고려하는것이 중요하기 때문에 Yang 등 (2019)과 Hong 등(2019)은 민감도와 특이도를 동시에 제한한 양방향 부분 AUC (tpAUC)를제안하였 ᄃ
ᅡ.
ᄇ
ᅩᆫ 연구에서는 Hong과 Hong (2019)에서 제안한 절단확률밀도함수를 이용한 AUC와 VUS를 확장 ᄒ
ᅡ여 변수가 다변량인 경우에서 최소최대 조합방법을이용한 AUC와 VUS를절단확률밀도함수로 표현 ᄒ
ᅡᆫ다. 3절에서는 AUC에관한 내용을다루는데 우선 2절에서와 동일하게 최소최대 조합방법을이용한 AU CmM(α)에 대하여 Xi,minmax의확률변수를 Yi, i = 1, 2, . . .라고 하고,확률변수 Y1과 Y2의확률밀 ᄃ
ᅩ함수 (probability density function; pdf)와 누적분포함수를각각 fY1(·), FY1(·), fY2(·), FY2(·)로 설 저
ᆼ한다. 최소최대 조합방법을이용한 pAUC는다음과 같이 정의한다.
pAU CmM(α) = P r(Y1≤ Y2, y01≤ Y2≤ y02) .
ᄎ
ᅬ소최대 조합방법을이용한 pAUC의 맨-휘트니 통계량을이용한 추정은 Y1과 Y2의 표본수가 각각 n1, n2인 경우확률벡터 Y1= {Y11, Y12, ..., Y1n1}과 Y2= {Y21, Y22, ..., Y2n2}일 때 다음과 같이 표현하 ᄋ
ᅧᆻ다.
pAU CM W(α) = 1 n1n2
n1
X
i=1 n2
X
j=1
I(Y1i< Y2j, y01≤ Y2j≤ y02) +1
2I(Y1i= Y2j, y01≤ Y2j≤ y02) .