2019, 30
(2)
,335–348
고위험 음주 자료에 대한 베이지안 비대칭 로짓 모형 분석
†
기
ᆷ수빈
1
·황범석2
12중앙대학교 응용통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 6ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 2ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 10ᄋ ᅵ ᆯ
요 약
ᄒ
ᅡ ᆫᄀ ᅮ ᆨ ᄌ ᅵ ᆯᄇ ᅧ ᆼᄀ ᅪ ᆫ ᄅ ᅵᄇ ᅩ ᆫ ᄇ ᅮᄋ ᅦᄉ ᅥ ᄉ ᅵᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅩᄋ ᅱᄒ ᅥ ᆷ ᄋ ᅳ ᆷ ᄌ ᅮ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄋ ᅴ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄀ ᅪ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥ ᄀ ᅩᄋ ᅱᄒ ᅥ ᆷ ᄋ ᅳ ᆷ ᄌ ᅮᄋ ᅦ ᄃ
ᅢᄒ ᅡ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄂ ᅳ ᆫ ᄀ ᅳ ᆨ ᄃ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄍ ᅩ ᆨ ᄋ ᅳᄅ ᅩ ᄎ ᅵᄋ ᅮᄎ ᅧᄉ ᅥ ᄂ ᅡᄋ ᅩᄂ ᅳ ᆫ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ.
ᄋ
ᅵᄅ ᅥ ᆫ ᄀ ᅧ ᆼᄋ ᅮ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄃ ᅢᄑ ᅭᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄃ ᅢᄎ ᅵ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᆫ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄑ ᅳᄅ ᅩᄇ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅦ ᄃ ᅬᄆ ᅧ ᆫ ᄆ ᅩᄉ ᅮ ᄋ
ᅴ ᄎ ᅮᄌ ᅥ ᆼᄎ ᅵᄀ ᅡ ᄑ ᅧ ᆫᄒ ᅣ ᆼ ᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄋ
ᅧ ᆫᄀ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼ ᄌ ᅮ ᆼ ᄒ ᅡᄂ ᅡᄋ ᅵ ᆫ ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄎ ᅮᄅ ᅩ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄋ ᅧ ᆫᄀ ᅧ ᆯ ᄆ ᅩ ᄒ ᅧ
ᆼᄋ ᅳ ᆫ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼ, ᄑ ᅳᄅ ᅩᄇ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼ, complementary log-log ᄆ ᅩᄒ ᅧ ᆼ ᄃ ᅳ ᆼᄋ ᅳ ᆯ ᄑ ᅩᄒ ᅡ ᆷᄒ ᅡᄂ ᅳ ᆫ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄃ ᅬ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩ ᄇ ᅮᄌ ᅥ ᆨᄌ ᅥ ᆯ ᄒ ᅡ
ᆫ ᄆ ᅮᄌ ᅥ ᆼᄇ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄉ ᅡᄌ ᅥ ᆫ ᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼᄒ ᅢ ᆻᄋ ᅳ ᆯ ᄄ ᅢ ᄉ ᅡᄒ ᅮᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄌ ᅥ ᆨᄌ ᅥ ᆯᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄌ ᅡ ᆼᄒ ᅢᄌ ᅮᄂ ᅳ ᆫ ᄌ ᅡ ᆼᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅩᄋ ᅱ ᄒ
ᅥ
ᆷ ᄋ ᅳ ᆷ ᄌ ᅮ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ ᅧ ᆯᄀ ᅪ ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᄀ ᅵᄐ ᅡ ᄃ ᅡᄅ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄇ ᅩᄃ ᅡ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡ ᄅ
ᅭᄅ ᅳ ᆯ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦ ᄃ ᅥ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅥ ᆻᄃ ᅡ.
Keywords: 고위험 음주, 마코프체인 몬테카를로, 베이지안 추론, 불균형 이진수 자료, 비 ᄃ
ᅢ칭 연결함수.
1. 서론 그
ᆨ단적으로 한쪽으로 치우쳐서 발생하는 불균형적인 이진수 자료 (binary data)는자연과학, 사회과 ᄒ
ᅡᆨ, 의학, 공학 등다양한 분야에서 흔히 사용되고 있다. 예를 들어, 한 공장에서 생산되는어떤 제품의 부
ᆯ량 여부, 1년 동안 병원 응급실 이용여부, 희귀 질병을가지는환자 여부 등의 자료에서는사건의 발 새
ᆼ이 잘 일어나지 않는 특성을 지니고 있다. 이러한 경우에 이진수 자료에 대한 대표적인 대칭 모형인 ᄅ
ᅩ지스틱 회귀모형 (logistic regression model) 또는프로빗 회귀모형 (probit regression model)은적 ᄒ
ᅡᆸ하지 않을 수 있다. 즉, 일반화선형모형 (generalized linear model) 체계에서 연결함수 (link func- tion)를 대칭 연결함수 (symmetric link function)를 사용할 경우 설명변수의 변화에 따라 사건이 일 ᄋ
ᅥ날 확률이 0으로 접근하는 속도와 1로 접근하는 속도를 동일하게 설정하기 때문에 모수의 추정치가 ᄑ
ᅧᆫ향된 결과를낼 수 있다 (Czado와 Santner, 1992). 이러한 불균형적인 이진수 자료를 다룰 때 비대 ᄎ
ᅵᆼ 연결함수 (asymmetric link function)인 complementary log-log 연결 모형이 하나의 해결책이 될 ᄉ
ᅮ 있다 (Stukel, 1988; Chen 등, 1999). 비대칭 연결함수 모형은 사건이 발생할 확률이 0으로 접근 ᄒ
ᅡ는 속도와 1로 접근하는 속도를서로 다르게 설정하여 비대칭성을설명해준다. 하지만, 공변량 (co- variates)을도입한 모형에서 베이지안 추론을 할 때 부적절한 무정보적인 사전분포 (improper nonin- formative prior)에 대한 사후분포 (posterior distribution)의 적절성 (propriety)이 보장되지 않는단점
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼᄌ ᅵᄋ ᅯ ᆫ ᄌ ᅡ ᆼᄒ ᅡ ᆨᄀ ᅳ ᆷ ᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫ ᄋ ᅦ ᄋ ᅴᄒ ᅢ ᄌ ᅡ ᆨᄉ ᅥ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ.
1
(06974) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄃ ᅩ ᆼ ᄌ ᅡ ᆨᄀ ᅮ ᄒ ᅳ ᆨᄉ ᅥ ᆨᄅ ᅩ 84, ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (06974) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄃ ᅩ ᆼ ᄌ ᅡ ᆨᄀ ᅮ ᄒ ᅳ ᆨᄉ ᅥ ᆨᄅ ᅩ 84, ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄋ
ᅵ 있다. Chen 등 (1999)은잠재변수를활용한 비대칭 연결 모형 (skewed link model)을제시하였고, Kim 등 (2008)은 일반화 t-연결 모형 (generalized t-link model)을 통해서 비대칭 데이터를 분석하였 ᄃ
ᅡ. Kim (2017)은기운 일반화 t 분포 (skewed generalized t distribution)를이용한 회귀 모형을소개 ᄒ
ᅡ였다.
ᄋ
ᅵ러한 모형의 분석방법으로는전통적으로 빈도론자 (frequentist)들의 접근방법인 최대가능도 방법 (maximum likelihood method)이 널리 사용되어왔고 (Stukel, 1988; Nagler, 1994; Jung과 Lim, 2016;
Kim, 2017), 최근에는 베이지안 추론 방법 또한 많이 사용되고 있다 (Chen 등, 1999; Bermudez 등, 2008; Kim 등, 2008). 이러한 베이지안 접근법들은기본적으로 마코프체인 몬테카를로 (Markov chain Monte Carlo; MCMC)방법을사용하여 모수의 사후분포 (posterior distribution)를찾아내려고 한다.
MCMC 방법이 유용하게 널리 사용되고 있지만, 점점 복잡해지는모형들의 계산법을 개선하기 위하여 ᄃ
ᅡ양한 방법들이 개발되고 있다 (Chen 등, 1999; Bazan 등, 2006; Kim 등, 2008; Bolfarine과 Bazan, 2010).
ᄇ
ᅩᆫ 논문에서 사용할 데이터는 질병관리본부에서 시행하는지역사회건강조사자료 (community health survey data)로서 개인의 건강상태, 주관적 건강수준, 건강검진 및 의료이용과관련된 내용을 포함하 ᄀ
ᅩ 있다. 본 논문에서는 지나친 음주에 대한 심각한 사회적 폐해를 고려하여 고위험 음주 (high-risk drinking)와 그와관련된여러 요인들을설명한 데이터를사용하고자 한다. Ryu 등 (2013)은 음주 패턴 ᄇ
ᅮᆫ석을위해 다중로지스틱 회귀분석 방법을사용하였고, Byeon (2015)은고위험 음주 예측모형을구현 ᄒ
ᅡ기 위해 CRT (classification and regression tree) 기법을사용하였다. Park와 Han (2017)은데이터 ᄆ
ᅡ이닝 기법인 CRT, ANN (artificial neural network)을이용하여 고위험 음주자들의 특성과관련 요 ᄋ
ᅵᆫ을파악하였다.
ᄇ
ᅩᆫ 논문에서는 불균형적인 이진수 자료에 대해서 베이지안 추론법에 기반한 비대칭 로짓 모형을적용 ᄒ
ᅡ여 분석하려고 한다. 비대칭 로짓 모형은기존의 전통적인 이진수 자료 분석 모형들을포함하는보다 이
ᆯ반적인 방법임을 강조하고자 한다. 2장에서는 이진수 자료에 대한 전통적인 방법을 설명하고, 보다 이
ᆯ반적인 방법인 비대칭 연결 모형을소개한다. 3장에서는비대칭 로짓 모형에 대한 베이지안 추론법을 ᄀ
ᅡᆫ략히 설명한다. 가능도함수, 사전분포를차례로 소개하고, 사후분포를계산한 후 이를 실현하기 위한 ᄀ
ᅮ체적인 MCMC 방법을설명한다. 4장에서는 실제 고위험 음주에관련된데이터에 대하여 네 가지 다 ᄅ
ᅳ
ᆫ모형을 각각 적합시킨 후 각 모형의 ROC 곡선과 AUC 값을 토대로 모형의 결과를 비교 분석한다.
5장에서는 본 논문을요약 정리하고 향후 후속연구의 방향에 대해 논의한다.
2. 이진수 자료에 대한 모형
Y = (Y1, ..., Yn)T는 n개의 독립적인 이진수 (binary) 형태의확률변수로 이루어진 n × 1 벡터를나 ᄐ
ᅡ내고, xi= (xi1, ..., xik)T는 k개의 공변량 (covariates)으로 이루어진 k × 1 벡터를나타낸다고 가정 ᄒ
ᅡᆫ다. 또한, X는 xTi를 행으로 가지는 n × k계획행렬 (design matrix)이고, β = (β1, ..., βk)T는 k × 1 ᄒ
ᅬ귀계수 벡터이다. 이 때 이진수 자료에 대한 전통적인 모형에서는 yi= 1일확률인 pi를다음과 같이 ᄆ
ᅩ형화한다.
pi= F (xTiβ), (2.1) ᄋ
ᅧ기에서 F (·)는누적분포함수 (cdf)이고, F−1는 일반화선형모형 (generalized linear model) 체계에 ᄉ
ᅥ 연결함수 (link function)로 알려져 있다.
2.1. 대칭 연결함수를 이용한 모형 시
ᆨ (2.1)에서 F (·)를 대칭분포로 가정하면 그 연결함수는 대칭이 되며 pi에 대한 반응곡선이 pi = 0.5를 중심으로 대칭인 형태를 띤다. 이진수 자료에 대한 가장 대표적인 모형인 로짓 (logit) 모형과 프 ᄅ
ᅩ빗 (probit) 모형이 각각 로짓과 프로빗 연결함수를사용하고 있다. 예를 들어, F (·)를 다음과 같이 ᄑ
ᅭ준로지스틱 분포 (standard logistic distribution)로 가정하면,
F (x) = ex
1 + ex, x ∈ R ᄋ
ᅵ 되고, 이 때의 로짓 연결함수는
F−1(pi) = log pi
1 − pi
ᄋ
ᅵ고, 이를기반으로 하는로지스틱 회귀모형은다음과 같은형태를가지게된다.
log pi
1 − pi
= xTiβ.
ᄆ
ᅡ찬가지 방법으로 F (·)를표준정규분포로 가정하면 즉, F (x) = Φ(x),프로빗 연결함수를기반으로 하 느
ᆫ프로빗 회귀모형을다음과 같이 얻을수 있다.
probit(pi) = Φ−1(pi) = xTiβ.
2.2. 비대칭 연결함수를 이용한 모형 시
ᆯ제 데이터에서는 y = 0또는 1의 값이 한쪽으로 치우쳐서 나오는경우가 종종발생한다. 이와 같은 겨
ᆼ우에 로짓 모형이나 프로빗 모형과 같은대칭 모형을사용하게 되면 모수의 추정치가 편향 (biased)될 ᄉ
ᅮ 있다 (Czado와 Santner, 1992). 이러한 불균형적인 데이터에는비대칭 연결함수 (asymmetric link function)를이용하여 pi가 0으로 접근하는 속도와 1로 접근하는 속도를다르게 설정할 수 있다. 대표 ᄌ
ᅥᆨ인 비대칭 연결함수인 complementary log-log 연결함수는다음과 같고
F−1(pi) = log(− log(1 − pi)), ᄋ
ᅵ를기반으로 하는 complementary log-log회귀모형은다음과 같이 표현된다.
log(− log(1 − pi)) = xTiβ.
ᄋ
ᅵ 때 yi= 1일확률인 pi는다음과 같다.
pi= 1 − exp(− exp(xTiβ)).
2.3. 비대칭 연결 모형 ᄇ
ᅵ대칭적인 이진수 데이터를 모형화하기 위해 Chen 등 (1999)은 Albert와 Chib (1993)이 제 ᄉ
ᅵ한 잠재변수 (latent variable)를 이용한 비대칭 연결 모형 (skewed link model)을 소개하였다.
w = (w1, w2, ..., wn)T를 독립적인 잠재변수 (latent variables)들의 벡터라고 하면 비대칭 연결 모 혀
ᆼ은다음과 같이 표현된다.