• 검색 결과가 없습니다.

A Bayesian skewed logit model for high-risk drinking data <sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "A Bayesian skewed logit model for high-risk drinking data <sup>†</sup>"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2019, 30

(

2)

,

335–348

고위험 음주 자료에 대한 베이지안 비대칭 로짓 모형 분석

ᆷ수ᄇ

1

·ᆼᄇᆷᄉ

2

12ᆼ대ᄒᆨ교 ᄋᆼᄋᆼ톄ᄒᆨᄀ

ᄌ ᅥ

ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 6ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 2ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 10ᄋ ᅵ ᆯ

요 약

ᅡ ᆫᄀ ᅮ ᆨ ᄌ ᅵ ᆯᄇ ᅧ ᆼᄀ ᅪ ᆫ ᄅ ᅵᄇ ᅩ ᆫ ᄇ ᅮᄋ ᅦᄉ ᅥ ᄉ ᅵᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅩᄋ ᅱᄒ ᅥ ᆷ ᄋ ᅳ ᆷ ᄌ ᅮ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄋ ᅴ ᄋ ᅯ ᆫ ᄋ ᅵ ᆫᄀ ᅪ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥ ᄀ ᅩᄋ ᅱᄒ ᅥ ᆷ ᄋ ᅳ ᆷ ᄌ ᅮᄋ ᅦ ᄃ

ᅢᄒ ᅡ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄂ ᅳ ᆫ ᄀ ᅳ ᆨ ᄃ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄍ ᅩ ᆨ ᄋ ᅳᄅ ᅩ ᄎ ᅵᄋ ᅮᄎ ᅧᄉ ᅥ ᄂ ᅡᄋ ᅩᄂ ᅳ ᆫ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ.

ᅵᄅ ᅥ ᆫ ᄀ ᅧ ᆼᄋ ᅮ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄃ ᅢᄑ ᅭᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄃ ᅢᄎ ᅵ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᆫ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄑ ᅳᄅ ᅩᄇ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅦ ᄃ ᅬᄆ ᅧ ᆫ ᄆ ᅩᄉ ᅮ ᄋ

ᅴ ᄎ ᅮᄌ ᅥ ᆼᄎ ᅵᄀ ᅡ ᄑ ᅧ ᆫᄒ ᅣ ᆼ ᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄋ

ᅧ ᆫᄀ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼ ᄌ ᅮ ᆼ ᄒ ᅡᄂ ᅡᄋ ᅵ ᆫ ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄎ ᅮᄅ ᅩ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄋ ᅧ ᆫᄀ ᅧ ᆯ ᄆ ᅩ ᄒ ᅧ

ᆼᄋ ᅳ ᆫ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼ, ᄑ ᅳᄅ ᅩᄇ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼ, complementary log-log ᄆ ᅩᄒ ᅧ ᆼ ᄃ ᅳ ᆼᄋ ᅳ ᆯ ᄑ ᅩᄒ ᅡ ᆷᄒ ᅡᄂ ᅳ ᆫ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄃ ᅬ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩ ᄇ ᅮᄌ ᅥ ᆨᄌ ᅥ ᆯ ᄒ ᅡ

ᆫ ᄆ ᅮᄌ ᅥ ᆼᄇ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄉ ᅡᄌ ᅥ ᆫ ᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼᄒ ᅢ ᆻᄋ ᅳ ᆯ ᄄ ᅢ ᄉ ᅡᄒ ᅮᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄌ ᅥ ᆨᄌ ᅥ ᆯᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄌ ᅡ ᆼᄒ ᅢᄌ ᅮᄂ ᅳ ᆫ ᄌ ᅡ ᆼᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅩᄋ ᅱ ᄒ

ᆷ ᄋ ᅳ ᆷ ᄌ ᅮ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ ᅧ ᆯᄀ ᅪ ᄇ ᅵᄃ ᅢᄎ ᅵ ᆼ ᄅ ᅩᄌ ᅵ ᆺ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᄀ ᅵᄐ ᅡ ᄃ ᅡᄅ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄇ ᅩᄃ ᅡ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅵᄌ ᅵ ᆫᄉ ᅮ ᄌ ᅡ ᄅ

ᅭᄅ ᅳ ᆯ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦ ᄃ ᅥ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅥ ᆻᄃ ᅡ.

Keywords: ᅩ위ᄒᆷ 우, 마코프체ᄋᆫ 메카로, 베이지ᄋᆫ 추ᄅᆫ, ᄇᆯᄀᆫᄒᆼ 이ᄌᆫ수 자료, ᄇ

ᅢᄎᆼ ᄋᆫᄀᆯᄒᆷ수.

1. 서론

ᆫᄌᆨ으로 ᄒᆫ쯔로 치우쳐서 ᄇᆯᄉᆼ하ᄂᆫ ᄇᆯᄀᆫᄒᆼᄌᆨᄋᆫ 이ᄌᆫ수 자료 (binary data)나ᄋᆫ과ᄒᆨ, 사회ᄀ

ᆨ, 의ᄒᆨ, ᄀᆨ 다ᄋᆼᄒᆫ 뱌에서 히 사외고 ᄋᆻ다. 예ᄅᆯ 더, ᄒᆫ ᄀᆼ에서 ᄉᆼᄉᆫ되너ᄄᆫ 제ᄑ

ᆼ 여부, 1ᄂᆫ ᄃᆫ ᄇᆼᄋᆫ ᄋᆼᄀᆸᄉᆯ 이여부, 희귀 ᄌᆯᄇᆼ아지나 여부 듸 자료에서나ᄀᆫ의 ᄇ

ᆼ이 ᄌᆯ ᄋᆯ어나지 ᄋᆭᄂᆫ ᄐᆨᄉᆼᄋ ᅵ니고 ᄋᆻ다. 이러ᄒᆫ ᄀᆼ우에 이ᄌᆫ수 자료에 대ᄒᆫ 대표ᄌᆨᄋᆫ 대ᄎᆼ 모ᄒᆼᄋ

ᅩ지스ᄐᆨ 회귀모ᄒᆼ (logistic regression model) 또느로ᄇᆺ 회귀모ᄒᆼ (probit regression model)ᄋ

ᆸ하지 ᄋᆭᄋ ᅮ ᄋᆻ다. ᄌᆨ, ᄋᆯᄇᆫ화ᄉᆫᄒᆼ모ᄒᆼ (generalized linear model) 체계에서 ᄋᆫᄀᆯᄒᆷ수 (link func- tion)ᄅ ᅢᄎᆼ ᄋᆫᄀᆯᄒᆷ수 (symmetric link function)ᄅ ᅡᄋᆯ ᄀᆼ우 ᄉᆯᄆᆼᄇᆫ수의 ᄇᆫ화에 따라 사ᄀᆫ이 ᄋ

ᅥᄂ ᆨ리 0으로 ᄌᆸ가ᄂᆫ 소와 1로 ᄌᆸ가ᄂᆫ 소ᄅᆯ ᄃᆼᄋᆯ하게 ᄉᆯᄌᆼ하기 때메 모수의 추ᄌᆼ치ᄀ

ᆫᄒ ᆯ과ᄅᆯ 수 ᄋᆻ다 (Czado와 Santner, 1992). 이러ᄒᆫ ᄇᆯᄀᆫᄒᆼᄌᆨᄋᆫ 이ᄌᆫ수 자료ᄅ ᅡᄅ ᅢ 비ᄃ

ᆼ ᄋᆫᄀᆯᄒᆷ수 (asymmetric link function)ᄋᆫ complementary log-log ᄋᆫᄀᆯ 모ᄒᆼ이 하나의 해ᄀᆯᄎᆨᄋ

ᅮ ᄋᆻ다 (Stukel, 1988; Chen ᄃᆼ, 1999). ᅵ대ᄎᆼ ᄋᆫᄀᆯᄒᆷ수 모ᄒᆼᄋ ᅡᄀᆫ이 ᄇᆯᄉᆼᄒ ᆨ리 0으로 ᄌᆸᄀ

ᅡᄂᆫ 소와 1로 ᄌᆸ가ᄂᆫ 소러로 다르게 ᄉᆯᄌᆼ하여 비대ᄎᆼᄉᆼᄋᆯᄆᆼ해자. 하지ᄆᆫ, ᄀᆼᄇᆫᄅᆼ (co- variates)오ᄋᆸᄒᆫ 모ᄒᆼ에서 베이지ᄋᆫ 추ᄅᆫᄋ ᆯ 때 부ᄌᆨᄌᆯᄒᆫ 무ᄌᆼ보ᄌᆨᄋᆫ 사ᄌᆫ보 (improper nonin- formative prior)ᅦ 대ᄒᆫ 사후보 (posterior distribution)의 ᄌᆨᄌᆯᄉᆼ (propriety)이 보ᄌᆼ되지 ᄋᆭᄂᆫᄌ

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼᄌ ᅵᄋ ᅯ ᆫ ᄌ ᅡ ᆼᄒ ᅡ ᆨᄀ ᅳ ᆷ ᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫ ᄋ ᅦ ᄋ ᅴᄒ ᅢ ᄌ ᅡ ᆨᄉ ᅥ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ.

1

(06974) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄃ ᅩ ᆼ ᄌ ᅡ ᆨᄀ ᅮ ᄒ ᅳ ᆨᄉ ᅥ ᆨᄅ ᅩ 84, ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (06974) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄃ ᅩ ᆼ ᄌ ᅡ ᆨᄀ ᅮ ᄒ ᅳ ᆨᄉ ᅥ ᆨᄅ ᅩ 84, ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᅵ ᄋᆻ다. Chen ᄃᆼ (1999)ᄋᆷ재ᄇᆫ수ᄅᆯᄋᆫ 비대ᄎᆼ ᄋᆫᄀᆯ 모ᄒᆼ (skewed link model)에시하ᄋᆻ고, Kim ᄃᆼ (2008)ᄋᆫ ᄋᆯᄇᆫ화 t-ᄋᆫᄀᆯ 모ᄒᆼ (generalized t-link model)ᄋᆯ 태서 비대ᄎᆼ 데이터ᄅᆯ ᄇᆫᄉᆨ하ᄋ

ᅡ. Kim (2017)이ᄋᆫ ᄋᆯᄇᆫ화 t 보 (skewed generalized t distribution)리ᄋᆫ 회귀 모ᄒᆼ오ᄀ

ᅡᄋᆻ다.

ᅵ러ᄒᆫ 모ᄒᆼ의 ᄇᆫᄉᆨᄇᆼᄇᆸ으로ᄂᆫᄐᆼᄌᆨ으로 ᄇᆫ도라 (frequentist)듸 ᄌᆸᄀᆼᄇᆸᄋᆫ 최대가노 ᄇᆼᄇ (maximum likelihood method)ᅵ ᄂᆯ리 사외오 (Stukel, 1988; Nagler, 1994; Jung과 Lim, 2016;

Kim, 2017), ᅦᄂ ᅦ이지ᄋᆫ 추ᄅ ᆼᄇᆸ 또ᄒᆫ ᄆᆭ이 사외고 ᄋᆻ다 (Chen ᄃᆼ, 1999; Bermudez ᄃᆼ, 2008; Kim ᄃᆼ, 2008). ᅵ러ᄒᆫ 베이지ᄋᆫ ᄌᆸᄀᆫᄇᆸᄃᆯ이ᄇᆫᄌᆨ으로 마코프체ᄋᆫ 메카로 (Markov chain Monte Carlo; MCMC)ᆼᄇᆸ아아여 모수의 사후보 (posterior distribution)ᄅᆽ아내려고 ᄒᆫ다.

MCMC ᆼᄇᆸ이 유아게 ᄂᆯ리 사외고 ᄋᆻ지ᄆᆫ, ᄌᆷᄌᆷ ᄇᆸ해지노ᄒᆼ듸 계ᄉᆫᄇᆸᄋ ᅢᄉᆫ하기 위하ᄋ

ᅡᄋᆼᄒᆫ ᄇᆼᄇᆸ디 개ᄇᆯ되고 ᄋᆻ다 (Chen ᄃᆼ, 1999; Bazan ᄃᆼ, 2006; Kim ᄃᆼ, 2008; Bolfarineᅪ Bazan, 2010).

ᆫ ᄂᆫ메서 사ᄋᆯ 데이터ᄂᆫ ᄌᆯᄇᆼ기부에서 시ᄒᆼ하니ᄋᆨ사회ᄀᆫᄀᆼ조사자료 (community health survey data)ᅩ서 개ᄋᆫ의 ᄀᆫᄀᆼᄉᆼ태, ᄌᆫᄌᆨ ᄀᆫᄀᆼ수ᄌᆫ, ᄀᆫᄀᆼᄀᆷᄌᆫ ᄆᆾ 의료이ᄋᆫᄅᆫᄃ ᅢᄋᆼᄋ ᅩᄒᆷᄒ

ᅩ ᄋᆻ다. ᄇᆫ ᄂᆫ메서ᄂ ᅵ나ᄎᆫ 우에 대ᄒᆫ ᄉᆷᄀᆨᄒᆫ 사회ᄌᆨ 폐해ᄅ ᅩ려하여 고위ᄒᆷ 우 (high-risk drinking)ᅪ 그ᄋᆫᄅᆫ뎌러 요ᄋᆫᄃᆯᄋᆯᄆᆼᄒᆫ 데이터라아고자 ᄒᆫ다. Ryu ᄃᆼ (2013)ᄋᆫ 우 패ᄐ

ᆫᄉᆨ위해 다조지스ᄐᆨ 회귀ᄇᆫᄉᆨ ᄇᆼᄇᆸ아아ᄋᆻ고, Byeon (2015)오위ᄒᆷ 우 예초ᄒᆼ우ᄒ

ᅡ기 위해 CRT (classification and regression tree) 기ᄇᆸ아아ᄋᆻ다. Park와 Han (2017)에이ᄐ

ᅡ이ᄂᆼ 기ᄇᆸᄋᆫ CRT, ANN (artificial neural network)이아여 고위ᄒᆷ 우자듸 ᄐᆨᄉᆼᄀᆫᄅᆫ ᄋ

ᆫ아ᄋᆨ하ᄋᆻ다.

ᆫ ᄂᆫ메서ᄂᆫ ᄇᆯᄀᆫᄒᆼᄌᆨᄋᆫ 이ᄌᆫ수 자료에 대해서 베이지ᄋᆫ 추ᄅᆫᄇᆸ에 기ᄇᆫᄒᆫ 비대ᄎᆼ 로ᄌᆺ 모ᄒᆼᄋᆨᄋ

ᅡ여 ᄇᆫᄉᆨ하려고 ᄒᆫ다. 비대ᄎᆼ 로ᄌᆺ 모ᄒᆼ이즤 ᄌᆫᄐᆼᄌᆨᄋᆫ 이ᄌᆫ수 자료 ᄇᆫᄉᆨ 모ᄒᆼᄃᆯ오ᄒᆷ하노ᄃ

ᆯᄇᆫᄌᆨᄋᆫ ᄇᆼᄇᆸᄋᆷᄋ ᆼ조하고자 ᄒᆫ다. 2ᄌᆼ에서ᄂ ᅵᄌᆫ수 자료에 대ᄒᆫ ᄌᆫᄐᆼᄌᆨᄋᆫ ᄇᆼᄇᆸᄋ ᆯᄆᆼ하고, 보ᄃ

ᆯᄇᆫᄌᆨᄋᆫ ᄇᆼᄇᆸᄋᆫ 비대ᄎᆼ ᄋᆫᄀᆯ 모ᄒᆼ오개ᄒᆫ다. 3ᄌᆼ에서니대ᄎᆼ 로ᄌᆺ 모ᄒᆼ에 대ᄒᆫ 베이지ᄋᆫ 추ᄅᆫᄇᆸᄋ

ᆫᄅᆨ히 ᄉᆯᄆᆼᄒᆫ다. 가노ᄒᆷ수, 사ᄌᆫ보라례로 소개하고, 사후보례ᄉᆫᄒᆫ 후 이ᄅᆯ ᄉᆯᄒᆫ하기 위ᄒ

ᅮ체ᄌᆨᄋᆫ MCMC ᄇᆼᄇᆸᄋᆯᄆᆼᄒᆫ다. 4ᄌᆼ에서ᄂᆫ ᄉᆯ제 고위ᄒᆷ 우ᄋᆫᄅᆫ데이터에 대하여 네 가지 ᄃ

ᅩᄒᆼᄋ ᆨᄀᆨ ᄌᆨᄒᆸ시ᄏᆫ 후 ᄀᆨ 모ᄒᆼ의 ROC ᄀᆨᄉᆫ과 AUC ᄀᆹᄋ ᅩ대로 모ᄒᆼ의 ᄀᆯ과ᄅ ᅵ교 ᄇᆫᄉᆨᄒᆫ다.

5ᆼ에서ᄂᆫ ᄇᆫ ᄂᆫᄆᆫ요ᄋᆨ ᄌᆼ리하고 ᄒᆼ후 후ᄉᆫ구의 ᄇᆼᄒᆼ에 대해 늬ᄒᆫ다.

2. 이진수 자료에 대한 모형

Y = (Y1, ..., Yn)Tᆫ nᅢ의 ᄃᆨᄅᆸᄌᆨᄋᆫ 이ᄌᆫ수 (binary) ᄒᆼ태ᄋᆨᄅᆯᄇᆫ수로 이루어ᄌᆫ n × 1 ᄇᆨ터ᄅ

ᅡ내고, xi= (xi1, ..., xik)Tᆫ kᅢ의 ᄀᆼᄇᆫᄅᆼ (covariates)으로 이루어ᄌᆫ k × 1 ᄇᆨ터라타ᄂᆫ다고 가ᄌ

ᆫ다. 또ᄒᆫ, Xᄂᆫ xTiᆯ ᄒᆼ으로 가지ᄂᆫ n × kᆼᄅᆯ (design matrix)이고, β = (β1, ..., βk)Tᆫ k × 1

ᅬ귀계수 ᄇᆨ터이다. 이 때 이ᄌᆫ수 자료에 대ᄒᆫ ᄌᆫᄐᆼᄌᆨᄋᆫ 모ᄒᆼ에서ᄂᆫ yi= 1ᄋᆨᄅᆯᄋᆫ piᅡ와 ᄀᇀᄋ

ᅩᄒᆼ화ᄒᆫ다.

pi= F (xTiβ), (2.1)

ᅧ기에서 F (·)누ᄌᆨ보ᄒᆷ수 (cdf)이고, F−1ᆫ ᄋᆯᄇᆫ화ᄉᆫᄒᆼ모ᄒᆼ (generalized linear model) 체계ᄋ

ᅥ ᄋᆫᄀᆯᄒᆷ수 (link function)로 ᄋᆯ려져 ᄋᆻ다.

(3)

2.1. 대칭 연결함수를 이용한 모형

ᆨ (2.1)에서 F (·)ᄅ ᅢᄎᆼ보로 가ᄌᆼ하ᄆᆫ 그 ᄋᆫᄀᆯᄒᆷ수ᄂ ᅢᄎᆼ이 되며 piᅦ 대ᄒᆫ ᄇᆫᄋᆼᄀᆨᄉᆫ이 pi = 0.5ᄅᆯ ᄌᆼᄉᆷ으로 대ᄎᆼᄋᆫ ᄒᆼ태ᄅᆯ ᄄᆫ다. 이ᄌᆫ수 자료에 대ᄒᆫ 가ᄌᆼ 대표ᄌᆨᄋᆫ 모ᄒᆼᄋᆫ 로ᄌᆺ (logit) 모ᄒᆼ과 ᄑ

ᅩᄇᆺ (probit) 모ᄒᆼ이 ᄀᆨᄀᆨ 로ᄌᆺ과 프로ᄇᆺ ᄋᆫᄀᆯᄒᆷ수라아고 ᄋᆻ다. 예ᄅᆯ 더, F (·)ᄅ ᅡ와 ᄀᇀᄋ

ᅭ조지스ᄐᆨ 보 (standard logistic distribution)로 가ᄌᆼ하ᄆᆫ,

F (x) = ex

1 + ex, x ∈ R

ᅵ 되고, 이 때의 로ᄌᆺ ᄋᆫᄀᆯᄒᆷ수ᄂ

F−1(pi) = log pi

1 − pi

ᅵ고, 이리ᄇᆫ으로 하노지스ᄐᆨ 회귀모ᄒᆼ아와 ᄀᇀᄋᆼ태라지가.

log pi

1 − pi

= xTiβ.

ᅡᄎᆫ가지 ᄇᆼᄇᆸ으로 F (·)료ᄌᆫᄌᆼ규보로 가ᄌᆼ하ᄆᆫ ᄌᆨ, F (x) = Φ(x),ᅳ로ᄇᆺ ᄋᆫᄀᆯᄒᆷ수리ᄇᆫ으로 ᄒ

ᅳ로ᄇᆺ 회귀모ᄒᆼ아와 ᄀᇀ이 ᄋᆮ우 ᄋᆻ다.

probit(pi) = Φ−1(pi) = xTiβ.

2.2. 비대칭 연결함수를 이용한 모형

ᆯ제 데이터에서ᄂᆫ y = 0ᅩᄂᆫ 1ᅴ ᄀᆹ이 ᄒᆫ쯔로 치우쳐서 나오ᄂᆼ우가 ᄌᆼᄌᆯᄉᆼᄒᆫ다. 이와 ᄀᇀᄋ

ᆼ우에 로ᄌᆺ 모ᄒᆼ이나 프로ᄇᆺ 모ᄒᆼ과 ᄀᇀ애ᄎᆼ 모ᄒᆼ아아게 되ᄆᆫ 모수의 추ᄌᆼ치가 ᄑᆫᄒᆼ (biased)

ᅮ ᄋᆻ다 (Czado와 Santner, 1992). 이러ᄒᆫ ᄇᆯᄀᆫᄒᆼᄌᆨᄋᆫ 데이터에니대ᄎᆼ ᄋᆫᄀᆯᄒᆷ수 (asymmetric link function)리아여 piᅡ 0으로 ᄌᆸ가ᄂᆫ 소와 1로 ᄌᆸ가ᄂᆫ 소라르게 ᄉᆯᄌᆼᄒᆯ 수 ᄋᆻ다. 대ᄑ

ᆨᄋᆫ 비대ᄎᆼ ᄋᆫᄀᆯᄒᆷ수ᄋᆫ complementary log-log ᄋᆫᄀᆯᄒᆷ수나와 ᄀᇀᄀ

F−1(pi) = log(− log(1 − pi)),

ᅵ리ᄇᆫ으로 하ᄂᆫ complementary log-logᅬ귀모ᄒᆼ아와 ᄀᇀ이 표ᄒᆫ다.

log(− log(1 − pi)) = xTiβ.

ᅵ 때 yi= 1ᄋᆨᄅᆯᄋᆫ piᅡ와 ᄀᇀ다.

pi= 1 − exp(− exp(xTiβ)).

2.3. 비대칭 연결 모형

ᅵ대ᄎᆼᄌᆨᄋᆫ 이ᄌᆫ수 데이터ᄅ ᅩᄒᆼ화하기 위해 Chen ᄃᆼ (1999)ᄋᆫ Albertᅪ Chib (1993)이 ᄌ

ᅵᄒᆫ ᄌᆷ재ᄇᆫ수 (latent variable)ᄅ ᅵᄋᆫ 비대ᄎᆼ ᄋᆫᄀᆯ 모ᄒᆼ (skewed link model)ᄋ ᅩ개하ᄋᆻ다.

w = (w1, w2, ..., wn)Tᆯ ᄃᆨᄅᆸᄌᆨᄋᆫ ᄌᆷ재ᄇᆫ수 (latent variables)듸 ᄇᆨ터라고 하ᄆᆫ 비대ᄎᆼ ᄋᆫᄀᆯ ᄆ

ᆼ아와 ᄀᇀ이 표ᄒᆫ다.

수치

Table 4.1 Descriptive summary of the variables in the high-risk drinking data Normal Drinking High-risk Drinking
Table 4.2 Results of logit model, probit model and complementary log-log model in the high-risk drinking data Estimate(95% C.I.)
Table 4.3 Results of skewed logit model in the high-risk drinking data
Figure 4.1 ROC curves of four different models in the high-risk drinking data

참조

관련 문서

Using 1987 data, had 46,400 traffic fatalities in 1924 billion miles or 24 fatalities/billion vehicle miles.. 37% drivers, 18% passengers, 14% pedestrians, 9%

전류와 자석의 상관관계에 의해 유도된 magnetic force로 보이스 코일이 앞뒤로 진동. 보이스 코일에 연결된 콘이 진동하여

This work builds inversely a base performance model of a turboprop engine to be used for a high altitude operation UAV using measured performance data,

[표 12] The true model is inverse-gaussian, out-of-control ARL1 and sd for the weighted modeling method and the random data driven

- The probability density function of the Normal distribution is symmetric about its mean value, and this distribution cannot be used to model right-skewed or left- skewed

 Procedure for creating the equipment failure rate data segment of a CPQRA analysis data base.  Define

à For each subentity, create a table that includes the attributes of that entity set plus the primary key of the higher level

According to the analysis results, the characteristics obtainable by the human model based motion capture system are the Euler angle, 3 dimensional location