Analysis of domestic diabetes prevalence data using Bayesian spatially-dependent clustering models in regression coefficients<sup>†</sup>

(1)

2018, 29

(

3)

,

633–644

공간상관성을 고려한 회귀계수의 베이지안 군집모형을 이용한 국내 당뇨병 유병률 자료 분석 ^†

ᄒ

ᅩᆼ소진

¹

·강다연

²

·최정순

³

12한양대학교 응용통계학과 ·³한양대학교 수학과

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ

요 약

ᄀ

ᅩ

ᆼ ᄀ ᅡ ᆫᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄋ ᅵ ᆷᄋ ᅴᄉ ᅥ ᆼᄇ ᅮ ᆫ (random component)ᄋ ᅳ ᆯ ᄎ

ᅮᄀ ᅡᄒ ᅡᄋ ᅧ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅮᄌ ᅩᄅ ᅳ ᆯ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡᄆ ᅧ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄂ ᅳ ᆫ ᄌ ᅮᄋ ᅥᄌ ᅵ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄋ ᅧ ᆼᄋ ᅧ ᆨ (spatial domain) ᄂ ᅢᄋ ᅦᄉ ᅥ ᄀ ᅩᄌ ᅥ ᆼᄃ ᅬ ᄋ

ᅥ ᄋ ᅵ ᆻᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅡᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄃ ᅡ. ᄋ ᅵᄂ ᅳ ᆫ ᄇ ᅵᄅ ᅩ ᆨ ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆫ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄋ ᅵ ᄃ ᅬᄌ ᅵᄆ ᅡ ᆫ, ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫᄉ ᅮ ᄋ

ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄅ ᅧ ᆨᄋ ᅵ ᄌ ᅵᄋ ᅧ ᆨᄆ ᅡᄃ ᅡ ᄋ ᅵ ᆯᄌ ᅥ ᆼᄒ ᅡᄃ ᅡᄂ ᅳ ᆫ ᄋ ᅴᄆ ᅵᄅ ᅩ ᄒ ᅢᄉ ᅥ ᆨᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ, ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅡᄅ ᅭᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼ ᄉ

ᅡ ᆼ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮ ᄌ ᅡᄎ ᅦᄀ ᅡ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵ ᆯ ᄉ ᅮᄃ ᅩ ᄋ ᅵ ᆻᄀ ᅩ, ᄃ ᅥᄇ ᅮ ᆯ ᄋ ᅥ ᄉ ᅩᄌ ᅵᄋ ᅧ ᆨᄆ ᅡᄃ ᅡ ᄉ ᅥᄅ ᅩ ᄃ ᅡᄅ ᅳ ᆫ ᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵ ᆯ ᄉ ᅮᄃ ᅩ ᄋ ᅵ ᆻᄃ ᅡ.

ᄎ ᅬ ᄀ ᅳ ᆫ, Lawson ᄃ ᅳ ᆼ (2014)ᄋ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄋ ᅵᄉ ᅡ ᆫ ᄀ ᅮ ᆫᄌ ᅵ ᆸᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄀ ᅩ ᄋ

ᅡ

ᆷᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅵᄄ ᅢ, ᄇ ᅩ ᆨ ᄌ ᅡ ᆸᄒ ᅡ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅮᄌ ᅩᄅ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄀ ᅨᄎ ᅳ ᆼᄌ ᅥ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᄉ

ᅡᄋ ᅭ ᆼ ᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ 2014ᄂ ᅧ ᆫ ᄀ ᅮ ᆨ ᄂ ᅢ 252ᄀ ᅢ ᄉ ᅵᄀ ᅮ ᆫ ᄀ ᅮᄇ ᅧ ᆯ ᄃ ᅡ ᆼᄂ ᅭᄇ ᅧ ᆼ ᄋ ᅲᄇ ᅧ ᆼᄅ ᅲ ᆯ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄎ ᅥᄋ ᅳ ᆷ ᄋ ᅳᄅ ᅩ ᄀ ᅩ ᆼ ᄀ

ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄉ ᅵᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄂ ᅡᄋ ᅡᄀ ᅡ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄋ ᅵᄉ ᅡ ᆫ ᄀ ᅮ ᆫᄌ ᅵ ᆸᄒ ᅪ ᄆ

ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡᄋ ᅧ ᄌ ᅦᄉ ᅵᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ

ᅳ ᆯ ᄇ ᅵᄀ ᅭᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼ, ᄀ ᅮ ᆫᄌ ᅵ ᆸ, ᄃ ᅡ ᆼᄂ ᅭᄇ ᅧ ᆼ ᄋ ᅲᄇ ᅧ ᆼᄅ ᅲ ᆯ ᄌ ᅡᄅ ᅭ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄎ ᅮᄅ ᅩ ᆫ, ᄌ ᅵᄋ ᅧ ᆨᄉ ᅡᄒ ᅬᄀ ᅥ ᆫᄀ ᅡ ᆼᄌ ᅩᄉ ᅡ.

1. 서론 ᄋ

ᅧᆨ학,환경 보건학, 기후학, 생태학 등다양한 영역에서 공간을기본으로 수집되는데이터를 공간자료 ᄅ

ᅡ고 하며, 일반적으로 거리에 기반을 둔 공간상관성을가지게 되며 이러한 점을고려한 분석이 요구된 ᄃ

ᅡ. 고전 통계모형은 공간자료의 복잡한 공간상관성을고려하는데 어려움이 있었지만, 베이지안 계층 ᄌ

ᅥᆨ 모형은 복잡한 상관구조를효과적으로 설명할 수 있으며 불확실성에관한 모형화를가능하게 하였다 (Richardson 등, 2006).

ᄎ

ᅬ근 역학 분야에서는 질병의 원인을 규명하고 나아가 질병의 지역적인 패턴 (pattern)을확인하고 ᄌ

ᅡ 공간 단위의 연구가 중요하게 다루어지고 있다. 역학분야에서의 대부분의 공간 모형은주어진 공간 여

ᆼ역 내에서의 공간상관성을 설명하는 임의성분 (random component)을포함하고 있다 (Choi, 2016;

†

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄆ ᅵᄅ ᅢᄎ ᅡ ᆼᄌ ᅩᄀ ᅪᄒ ᅡ ᆨᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅥ

ᆺᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ (NRF-2015R1C1A1A02037495). ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄌ ᅦ1ᄌ ᅥᄌ ᅡ ᄒ ᅩ ᆼ ᄉ ᅩᄌ ᅵ ᆫᄋ ᅴ ᄉ ᅥ ᆨᄉ ᅡᄒ ᅡ ᆨᄋ ᅱᄂ ᅩ ᆫᄆ ᅮ ᆫ (2017) ᄋ ᅴ ᄋ ᅵ ᆯᄇ ᅮᄅ ᅳ ᆯ ᄇ

ᅡ ᆯᄎ ᅰ, ᄉ ᅮᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄀ ᅥ ᆺᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ.

1

(04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅡᄋ ᅧ ᆫᄀ ᅪᄒ ᅡ ᆨᄃ ᅢᄒ ᅡ ᆨ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨ, ᄉ ᅥ ᆨᄉ ᅡ ᄌ ᅩ ᆯᄋ ᅥ ᆸᄉ ᅢ ᆼ.

2

(04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅡᄋ ᅧ ᆫᄀ ᅪᄒ ᅡ ᆨᄃ ᅢᄒ ᅡ ᆨ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨ, ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

3

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄉ ᅮᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

Kim과 Lim, 2016; Ko 등, 2016; Park 등, 2016). 그러나 이러한 연구에서 회귀계수는 지역마다 일 저

ᆼ한 값으로 간주해왔다는 데 한계가 있다. 일반적으로 질병자료가 공간자료인 경우, 질병에 대한 위 ᄒ

ᅥᆷ인자의 영향력인 회귀계수 역시 지역마다 서로 상이한 값을 가질 수 있다. 이런 회귀계수의 공간상 과

ᆫ성을 고려한 가장 대표적인 모형이 지리가중회귀모형 (geographically weighted regression model;

Fotheringham 등, 2002)이며, 이는회귀계수에 대한 연속적인 공간적 변동성을가정하고 있다. 하지 ᄆ

ᅡᆫ, 경우에 따라서는 일부 지역들은 동일한 회귀계수 값을 가질 수 있기 때문에, 연속적 공간적 변동성 으

ᆯ회귀계수에 고려하는 것보다 공간적 군집성을 고려하는것이 적절하다. 이와 관련하여 Lawson 등 (2014)이 처음으로 생존자료에 대하여 회귀계수의 공간적 군집모형을제안하였다.

보

ᆫ 연구에서는 2014년 국내 252개 시군구별 당뇨병 유병률 자료에 대하여 공간모형을 적합하고, Lawson 등 (2014)이 제안한 군집화 방법까지 적용하여 분석하고자 한다. 한국 당뇨병 유병률과 관련 되

ᆫ기존연구 중에서 공간상관성을고려한 연구와 더불어 회귀계수를 군집화 하는시도는이루어지지 않 ᄋ

ᅳ

ᆫ상황이다. 따라서, 본연구를 통해 공간상관성을가진 회귀계수의 군집모형의 중요성을적합도와 예 ᄎ

ᅳᆨ력 측면에서 나타내고자 한다. 더불어, 역학자료에 대한 분석의 이해를 돕고 나아가 다양한 분야에서 ᄀ

ᅩ

ᆼ간모형과 회귀계수 군집모형을 통한 분석을활용하는데 도움이 되고자 한다.

보

ᆫ 논문의 구성은 다음과 같다. 2절에서는 공간 모형의 조건부 자기 회귀 모형과 공간상관성 군집화 ᄋ

ᅦ 대한 이론적인 방법론을 소개하였다. 3절에서는 국내 당뇨병 유병률 자료에 대한 소개와 실제 자료 ᄇ

ᅮᆫ석을 실시한 결과를서술하였고 4절에서는연구의 결론에관하여 기술하였다.

2. 베이지안 공간 모형 ᄌ

ᅵ역 i에 대하여 yⁱ를연속형 종속변수라 하고 XXXi를설명변수로 하는선형 회귀 모형은 식 (2.1)과 같 ᄃ

ᅡ.

yi= µi+ ϵi= XXX^T_iβββ + ϵi, ϵi∼ N (0, σ²), i = 1, 2, · · · , n, (2.1) ᄋ

ᅧ기서, n는자료의 총 개수이며, µⁱ는 종속변수의 평균으로 설명변수 XXXi와 회귀계수 βββ의 선형결합으 ᄅ

ᅩ 표현되며, ϵⁱ는 랜덤오차 (random error)를나타낸다.

ᄀ ᅩ

ᆼ간상관성을모형에 고려하기 위하여 공간상관성을가진 임의성분 vi를고려하면 식 (2.2)와 같다.

yi= XXX^Tiβββ + vi+ ϵi. (2.2) ᄋ

ᅵ 때, 공간자료의 종류에 따라 vi에 고려할 수 있는모형은각기 다르다. 2.1절에서는격자자료 (lattice data)의 공간상관성을고려한 대표적 모형인 조건부 자기회귀 모형을 소개하고, 2.2절에서 회귀계 ᄉ

ᅮ의 공간상관성을고려한 군집모형에 대하여 자세히 기술하겠다.

2.1. 조건부 자기회귀 모형 ᄀ

ᅩ

ᆼ간 임의성분 vi의 조건부 자기회귀 모형 (conditional autoregressive model; CAR model)은다음 ᄀ

ᅪ 같이 정의된다 (Besag, 1974).

vi|vs, s ̸= i ∼ N X

s=1

aisvs, σ_i²

!

, i = 1, 2, · · · , n.

(3)

Brooks의 보조정리 (Brook, 1964)와 Hammersley-Clifford 정리 (Besag, 1974; Clifford, 1990)에 의 ᄒ

ᅢ서 유한한 n인 경우 vvv = (v1, v2, · · · , vn)^T의 결합확률분포는다음과 같이 정의된다.

v v

v ∼ N (0, (IIInnn− AAA)⁻¹DDD).

ᄒ

ᅢᆼ렬 AAA = {ais}, DDD = Diag{σi²}이며 IIIⁿ은 n차원의 단위행렬 (identity matrix)을 의미한다. 본 ᄋ

ᅧᆫ구에서는 his는 인접성을 기반으로 두 지역의 경계선이 공유하는 경우는 1, 아니면 0으로 정의하 ᄆ

ᅧ, hi+ = Pn

s=1his는 i지역에 인접한 지역의 총개수가 된다. 이를기반으로 ais = his/hi+, σ²_i = σ²v/hi+라고 정의하며, σv²은 공간모형에서의 분산 모수이다. 따라서, i지역의 조건부 자기회귀모형은 ᄋ

ᅵᆫ접한 s지역의 가중 평균을 평균으로 가지는 정규분포로 정의된다. 이 모형을 고유 조건부 자기상관 (intrinsic conditional autoregressive; ICAR)모형이라고 하며, vvv ∼ ICAR(σv²)로 표현한다.

2.2. 회귀계수의 공간상관성을 고려한 군집모형

Lawson 등 (2014)의 연구에서 소개된회귀계수를지역마다 달리 군집화하여, 각 그룹마다 다른회귀 ᄀ

ᅨ수 값을적용하는 공간 군집모형을소개하고자 한다.

서

ᆯ명변수가 L개 있다고 가정하면, 각각의 회귀계수는각기 다른그룹의 개수를가질 수 있다. l번째 ᄒ

ᅬ귀계수가 가질 수 있는그룹의 개수를 kl로 표현하면, l번째 회귀계수에서 i지역이 속하는그룹의 라 ᄇ

ᅦᆯ (label) zl,k(i)의 범위는 식 (2.3)과 같다.

zl,k(i)= 1, 2, · · · , kl. (2.3)

ᄋ

ᅵ를모든 L개의 설명변수에 적용하여, 식 (2.1)에서 평균에 해당하는항을다시 표현하면 식 (2.4)와 ᄀ

ᅡ ᇀ다.

XXX^Tiβββ = β0z_0,k(i)+ β1z_1,k(i)x1i+ · · · + βLz_L,k(i)xLi. (2.4) ᄋ

ᅵ 때, 군집의 라벨이 되는 zl,k(i)의 분포 가정에 따라 군집화 방법이 다르게 되며 공간상관성을적용 ᄒ

ᅡᆫ 군집화 방법 2가지를구체화하여 소개하고자 한다.

처

ᆺ 번째 방법은 군집화를 결정하는 확률변수에 ICAR 모형을적용하는 데 있다. 그리고 군집화 결 저

ᆼ 확률에 일정한 기준치를 둠으로써 그룹을 결정하게 된다. 기준치가 어떻게 적용되는지 설명하기에 ᄋ

ᅡ

ᇁ서, 공간상관성을 적용한 군집화를 고려하기 위하여 ICAR모형을 따르는 확률변수 zl(i)^∗ 를 먼저 식 (2.5)과 같이 정의하고자 한다.

zl(i)^∗ ∼ ICAR(σ²z_l). (2.5) ᄀ

ᅵ준치가 적용되는 과정을 예를 들어 소개한 후 일반적인 경우로 확장하겠다. 예를 들어, l번째 설 며

ᆼ변수가 2개의 그룹으로 나눠진다고 가정하자. 그러면 기준치를 1/2로 두고, zl(i)^∗ 의 누적확률 값이 1/2보다 작으면 1 군집, 1/2보다 크면 2 군집으로 군집화를 하는 것이다. 3개의 군집으로 나뉘는 경 ᄋ

ᅮ를 생각하면, 확률 값을 일정하게 3등분하여 1/3, 2/3가 기준치가 된다. 즉, z_l(i)^∗ 의 누적 확률 값이 1/3보다 작으면 1 군집, 1/3보다 크고 2/3보다 작으면 2 군집으로 2/3보가 크고 1보다 작으면 3군집이

(4)

ᄃ

ᅬ는것이다. l번째 회귀계수가 kl개의 군집을가지고 있다고 가정할 때, zl,k(i)의 분포는 식 (2.6)과 같 ᄃ

ᅡ.

P r(zl,k(i)= k) = I(·), k = 1, 2, · · · , kl

I(·) =







1 if (k − 1)/kl< Φ(z^∗_l(i)) ≤ k/kl

0 otherwise,

(2.6)

ᄋ

ᅧ기서 Φ(zl(i)^∗ )는 z_l(i)^∗ 의 누적확률값이며, 이러한 공간상관성 군집화 방법을 threshold car model이라 ᄀ

ᅩ 정의한다.

ᄃ

ᅮ 번째 방법은 z_l,k(i)은 보통 2가지 이상의 다양한 경우의 수를 가질 수 있기 때문에 다항분포 (multinomial distribution; Multi)를 가정한다. 여기서 zl,k(i)에 대하여 단일 다항분포를 가정하면, zl,k(i)= k (k = 1, 2, · · · , kl)를의미하고 그 때의확률은 pl,k(i)가된다. 수식은 식 (2.7)와 같이 구체화 되

ᆫ다.

(zl,k(i)= 1, zl,k(i)= 2, · · · , zl,k(i)= kl) ∼ Multi(pl,1(i), pl,2(i), · · · , pl,k_l(i); 1). (2.7) ᄋ

ᅵ 때,확률 p_l,k(i)은 0과 1사이의 값이므로 0보다큰확률변수 p^∗l,k(i)를생성하여 식 (2.8)로 정의할 ᄉ

ᅮ 있다.

pl,k(i)= p^∗_l,k(i) Pk_l

k=1p^∗_l,k(i), k = 1, 2, · · · , kl, (2.8)

ᄋ

ᅧ기서 각각의 pl,k(i)는 z_l,k(i) = k에 할당되는 확률로서 새로운 변수 p^∗l,k(i)로 대응된다. 이 때, p^∗_l,k(i)는 0보다 큰 범위에서 존재하기 때문에, 식 (2.9)에서 분포가정으로 로그 정규분포 (log-normal distribution; LN)를가정한다.

p^∗_l,k(i)∼ LN (ml,k(i), σ²_p_l,k). (2.9)

시

ᆨ (2.9)에서 각각의 평균 m_l,k(i)에 대하여 분산 σ²m_l,k인 공간상관성 분포 ICAR을고려함으로서 공 ᄀ

ᅡᆫ상관성을이용한 군집화 모형이완성된다.

m_l,k(i)∼ ICAR(σm²_l,k).

ᄃ

ᅡᆫ일 다항분포를 기반으로 공간상관성을가진 모형을결합하였기 때문에, 이를 multinomial spatial mixture model이라고 정의한다.

2.3. 베이지안 추론 보

ᆫ 절에서는 2.2절에서 소개한 모형 중 multinomial spatial mixture model을고려하는 경우, 베이 ᄌ

ᅵ안 추정법을사용하여 모형에서 고려한 모수를추정하는 과정을간단히 기술하고자 한다. 자료 YYY = (y1, y2, · · · , yn)^T의 우도함수는다음과 같이 기술된다.

(5)

L(θθθ |YYY , XXX) ∝

σ²IIInnn+ (IIInnn− AAA)⁻¹DDD exp

−1

2(YYY − XXX^Tβββ)^T(σ²IIInnn+ (IIInnn− AAA)⁻¹DDD)⁻¹(YYY − XXX^Tβββ)

, ᄋ

ᅧ기서, 벡터 θθθ는 본모형에서 고려하는모든모수로 정의된다. 각 모수간 상호독립의 가정과 함께 회귀 ᄀ

ᅨ수에 다음과 같이 무정보적 사전분포를가정한다.

βlz_l,k(i)∼ N (0, 10⁴), l = 0, 1, 2, k = 1, 2.

부

ᆫ산에 대한 사전분포로는 Gelman (2006)이 제안한 균등분포 (uniform distribution)를다음과 같이 ᄌ

ᅥ

ᆨ용하였다.

σ², σ_v², σ²_z_l, σ²_p_l,k, σ²_m_l,k ∼ U nif (0, 10).

ᄆ

ᅩ수 벡터 θθθ에 대한 추론은사전분포와 우도함수의 결합인 사후분포 (posterior distribution)를기반 ᄋ

ᅳ로 이루어진다.

p(θθθ|YYY ) ∝ L(θθθ|YYY , XXX)p(zl,k(i)|·)p(σ²)p(σv²)p(βββ)Y

p(σ²p_l,k)Y

p(σ²m_l,k).

ᄆ

ᅩ수 추정은 마코브 연쇄 몬테칼로 (Markov chain Monte Carlo; MCMC)기법을 사용하여 통 ᄀ

ᅨ 패키지 WinBUGS (http://www.mrc-bsu.cam.ac.uk/software/bugs)를 사용하여 분석하였다 (Casella와 Robert, 2004). 각 모형은하나의 초기값으로부터 총 28,000번의 burn-in을하고, 매 50번 ᄍ

ᅢ 해당하는 7,000개의 사후표본을모수 추정에 사용하였다. 본 논문에서는다중연쇄를 진행하는경우 ᄀ

ᅡ

ᆨ 연쇄별 군집 결과의 혼란 (Jasra 등, 2005)이 발생할 수 있기 때문에 이를방지하기 위하여 단일 연쇄 르

ᆯ고려하였다 (Choi 등, 2011).

ᄀ ᅡ

ᆨ 모수들의 수렴결과를 확인하기 위하여 자기상관 그림 (autocorrelation plot), 시도표 (trace plot), Geweke 통계량 (Geweke, 1992)을 사용하였다. Geweke 통계량은 통계 프로그램 R (http:

//www.R-project.org)의 CODA 패키지 (Plummer 등, 2006)를 통해 계산되었으며 대부분의 모수에 ᄉ

ᅥ Geweke 통계량은 -2에서 2 사이의 값을가짐으로써 사후표본들의 수렴성을확인하였다. 회귀계수 벼

ᆯ 군집에 대한 추정치는각 지역별 군집에 속할 확률모수의 사후 평균 (posterior mean)값이 가장 큰 구

ᆫ집으로 정의하였다. 또한 나머지 모수에 대한 추정 역시 사후 평균을이용하였다.

3. 자료 분석

3.1. 자료 소개

2014년 지역사회건강조사, 질병관리본부 (https://chs.cdc.go.kr)를 통해 얻어진 전국 시군구 252개 지역의 당뇨병 유병률자료를이용하여 앞 절에서 소개된모형들을비교분석하고자 한다. 지역사 ᄒ

ᅬ 건강조사 자료는만 19세 이상의 성인을대상으로 전국시군구 보건소별로 900명의 표본을선정하여 ᄉ

ᅮ집되었으며, 본연구에서는 2014년 행정구역 정보를기반으로 일부 수정하여활용하였다. 대한 당뇨 벼

ᆼ 학회 (2015)에 따르면 당뇨병은다양한 합병증을 일으키는만성질환으로, 개인의 유전적 요인 및 행 ᄃ

ᅩ

ᆼ양식 외에도 지역적환경 및 사회적 요인에 따라 차이가 있다고 알려져 있다 (Jo 등, 2016).

(6)

ᄀ

ᅳ러나 지역적 특성이 사업 계획과 수행에 체계적으로 반영되지 못하고 있는 실정이며, 당뇨병 유병률 ᄋ

ᅴ 지역별 차이와 요인을체계적으로 분석한 연구는거의 없는 실정이다. 현재 시군구 단위를 중심으로 ᄉ

ᅮ행되는당뇨병관리 사업을고려했을 때, 지역마다 상이한 원인의 크기 정도를확인하여 정책적으로 ᄇ

ᅡᆫ영할 필요가 있다. 선행연구 (Kim 등, 2014)를검토하여 고려한 9개의 변수 중에 기초분석을 통해 유 ᄋ

ᅴ한 독립변수로확인된고혈압 유병률과 스트레스 인지율을가지고 당뇨병 발생에 미치는영향력의 차 ᄋ

ᅵ를 공간상관성 군집화를 통하여 분석하고자 한다.

Figure 3.1은지역별 당뇨병 유병률, 고혈압 유병률,스트레스 인지율을각 자료의 분위수를기준으로 ᄂ

ᅡ눈 지도이다. Figure 3.1 (a)에서 상대적으로 북부지역과 서쪽해안 지역에서 당뇨병 유병률이 높은 겨

ᆼ향을보임을확인할 수 있다. Figure 3.1 (b)는수도권과 강원, 충청의 북부지역이 호남 영남의 남부 ᄌ

ᅵ역보다 높은고혈압 유병률을보임을알 수 있다. Figure 3.1 (c)는스트레스 인지율로 수도권지역이 ᄀ

ᅳ 외 지역에 비하여 높은수치를 보임을확인할 수 있었다. 또한, 각 자료별 공간적 군집화 여부를 확 ᄋ

ᅵᆫ하기 위하여 local Moran’s I (Anselin, 1995)값을이용하여 Figure 3.2에 공간적 유사성이 있는지역 (회색)을나타내는 군집지도를제시하였다. 이를 통해 각 자료별 공간적 군집이 존재함을확인할 수 있 ᄋ

ᅳ며, 이는설명변수와 종속변수간의 연관성을나타내는회귀계수 역시 공간적 상관성을가지는 군집이 조

ᆫ재할 수 있다는근거이므로 2장에서 제시한 모형을 본자료에 적합하고자 한다.

(a) diabetes prevalence rates (b) hypertension prevalence rates (c) stress recognition rates Figure 3.1 Maps of prevalence rates

(a) cluster map of diabetes (b) cluster map of hypertension (c) cluster map of stress

Figure 3.2 Spatial cluster maps of prevalence rates

(7)

3.2. 분석 결과 보

ᆫ 연구에서는 2장에서 제안한 공간 상관성을 고려한 2가지 형태의 군집모형을 자료에 적합하였다.

ᄋ

ᅵ때, 각 회귀계수별 군집의 수를 2개에서 5개로 증가하면서 모형의 적합도 측면에서 비교하였다. 또 ᄒ

ᅡᆫ, 모형 적합도 측면에서 회귀계수에 대한 군집의 필요성을확인하기 위하여 회귀계수에 군집을 고려 ᄒ

ᅡ지 않은모형 역시 적합하여 비교하였다. 추가적으로 전국시군구의 전반적인 공간상관성을설명하는 ᄀ

ᅩ

ᆼ간 임의성분을각 모형에 고려하여 추가된 공간 임의성분에 따른모형의 성능차이를비교분석하였다.

ᄌ

ᅥᆫ국시군구 252개 지역 i(= 1, · · · , 252)에 대하여 yi는당뇨병 유병률, x1i는고혈압 유병률,그리고 x2i는스트레스 인지율을나타낸다. 그리고 yi의 정규분포 가정을위하여 로그변환을하여 분석을 진행 ᄒ

ᅡ였다.

log(yi) ∼ N (µi, σ²)

Model 1-1 선형 회귀모형 (µi= XXX^T_iβββ), Model 1-2 선형 공간모형 (µi= XXX^T_iβββ + vi),

Model 2-1 공간 임의성분없는 2군집 threshold car 모형 Model 2-2 공간 임의성분 있는 2군집 threshold car 모형

Model 3-1 공간 임의성분없는 2군집 multinomial spatial mixture 모형 Model 3-2 공간 임의성분 있는 2군집 multinomial spatial mixture 모형 ᄆ

ᅩ형 1-1을 적합한 후 잔차에 대한 공간 상관성 측도인 Moran’s I는 0.105 (p-value=0.004)로 공간 ᄉ

ᅡᆼ관성이 존재함을 확인할 수 있었다. 이는 공간 임의성분을 포함하는모형 1-2를고려하게 되는근거 ᄋ

ᅵ며, 공간 군집모형에서도 여전히 잔차에 공간 상관성이 존재할 수 있기 때문에 각 군집 모형에서 공간 이

ᆷ의성분을고려하는경우와 그렇지 않은경우 모두 자료에 적합하였다.

Table 3.1 Comparison results of the models in terms of DIC, MSPE, and PML

Model deviance p

_D

DIC MSPE PML

1-1 -305.8780 4.0060 -301.8773 0.8137 150.7312 1-2 -348.9461 31.4087 -317.5373 0.8137 158.3115 2-1 -398.6308 67.1771 -335.4537 0.5715 160.6342 2-2 -366.5160 42.2992 -314.2167 0.6925 136.1510 3-1 -491.6436 114.4223 -337.2213 0.2850 162.1489 3-2 -544.6729 122.6712 -442.0017 0.2070 178.0418

Table 3.1은베이지안 모형의 적합도 기준인 DIC (deviance information criterion; Spiegelhalter 등, 2002)와 모형의 예측력 기준인 MSPE (mean squared prediction error)와 PML (penalized marginal likelihood; Chen 등, 2000; Congdon, 2005) 측면에서 고려한 모형들을비교하였다. 편차 (deviance) D(θθθ) = −2logL(yyy|θθθ)의 사후 평균인 D(θ¯θθ)는모형의 적합도를 의미하며 모수의 사후 평균 ˆθθθ를이용한 pD = D(θθθ) − D(ˆθθθ)는모형의 복잡도를의미한다. DIC는 D(θθθ)와 pD의 두 합으로 정의되며 작을수록 ᄆ

ᅩ형의 적합이 잘된 것으로 판단한다.

(8)

DIC = D(θθθ) + pD.

MSPE는 실제값과 예측값의 오차 제곱의 평균을계산함으로써 그 값이 작을수록 좋은예측모형으로 펴

ᆼ가하며, yi는관측된값이고 ˆyi는사후 분포에서 얻어진 yi의 예측값이다.

M SP E = 1 n

n

X

i=1

(yi− ˆyi)².

ᄇ

ᅦ이지안 예측측도로 사용되고 있는 PML은다음과 같이 정의된다.

P M L =

n

X

i=1

log(CP Oi),

ᄋ

ᅧ기서, CP Oⁱ는 yi값을 제외한 모든 자료가 주어진 상황에서의 yⁱ에 대한 주변 사후 예측 밀도값 (marginal posterior predictive density)으로 MCMC기법을 통해 다음과 같이 계산된다.

CP Oi= 1 K

K

X

k=1

1

p(yi|θθθ^(k), X1i, X2i)

!⁻¹ ,

ᄋ

ᅧ기서, K는 추정에 사용된 사후표본의 수로 본 연구에서는 7,000이며, 각 k번째 모수의 사후 표본 ᄋ

ᅳᆯ θθθ^(k)이라고 한다. CPO는 cross-validation 측도로 사후표본을이용하여 한번에 손쉽게 계산이된다.

PML값이큰모형이 예측 측면에서 더 우월하다.

ᄇ

ᅦ이지안 선형 공간모형을 적합한 모형 1-2는 DIC 측면에서 베이지안 선형 회귀모형 1-1보다 더 낮 ᄋ

ᅳ

ᆫ값을보였다. 이는모형 1-1의 잔차에 공간상관성이 존재함을보여주는것과 더불어 본자료에 대하 ᄋ

ᅧ 공간모형을고려하는것이 적합함을 뒷받침해준다. 공간상관성을적용한 군집화 모형들이 전반적으 ᄅ

ᅩ 낮은 DIC와 MSPE를보이면서 군집화를 실시했을경우 모형의 적합도와 예측력 측면에서 더 나음 으

ᆯ확인할 수 있었다. 공간상관성 군집화 모형 중에서 가장 낮은 DIC와 MSPE값과 가장큰 PML값을 ᄀ

ᅡ진 2군집 multinomial spatial mixture 모형 3-2를최종모형으로 선택하였다.

ᄎ

ᅬ종모형으로 선택된모형 3-2의 모수 추정값은 Table 3.2와 같다. 회귀계수에 대한 모수 추정값을 ᄉ

ᅡ

ᆯ펴보면, 모든변수는당뇨병 유병률에 관하여 양의 상관관계를 보임을 확인할 수 있다. 군집간의 회 ᄀ

ᅱ계수 추정치를살펴보면, 전체적인 평균값의 회귀계수 β0는 1.3880과 1.3110으로근소한 차이를보이 ᄆ

ᅧ, 고혈압 유병률의 1군집과 2군집의 회귀계수 β1은 0.0292와 0.0250으로 큰차이가 없음을 알 수 있 ᄃ

ᅡ. 스트레스 인지율의 1군집과 2군집의 회귀계수는 0.0088과 0.0038로큰차이를보이지 않지만, 1군 지

ᆸ의 회귀계수는 통계적으로 유의한 반면 2군집의 회귀계수는 통계적으로 유의하지 않음을알 수 있다.

ᄋ

ᅵ는 2군집에 속하는지역에서는스트레스 인지율과 당뇨병 유병률간에 양의 상관성이 있다고 말하기는 ᄋ

ᅥ렵지만, 반면 1군집에 속하는지역에서는스트레스 인지율과 당뇨병 유병률간에 양의 상관성이 있다 ᄀ

ᅩ 이야기 할 수 있다.

ᄎ

ᅬ종모형 3-2의 회귀계수별 군집을 Figure 3.3에서 지도화 하였다. 남부지역에 비해 북부지역에서 높 ᄋ

ᅳ

ᆫ수치를보였던 고혈압 유병률의 경우, 회귀계수별 군집화 지도화 결과는수도권지역을포함하여 서 ᄒ

ᅢ안과 남부지역의 그룹이 상대적으로 그렇지 않은 지역보다 높은 회귀계수 수치를보였다. 스트레스 ᄋ

ᅵᆫ지율의 경우에는수도권과 비수도권지역의 그룹으로 분할되는 양상에서 수도권 지역을포함한 남부

(9)

Table 3.2 Parameter estimates in the best-fitted model (model 3-2)

parameter mean sd 2.5% median 97.5%

β

01

1.3880 0.0938 1.1990 1.3880 1.5690 β

02

1.3150 0.0928 1.1330 1.3150 1.4960 β

₁₁

0.0292 0.0038 0.0217 0.0292 0.0370 β

12

0.0250 0.0041 0.0173 0.0249 0.0332 β

21

0.0088 0.0022 0.0043 0.0088 0.0131 β

₂₂

0.0038 0.0025 -0.0009 0.0038 0.0087 σ

²

0.0073 0.0025 0.0031 0.0071 0.0122 σ

²_v

0.0037 0.0021 0.0008 0.0033 5.6980 σ

_p0,1²

0.3778 0.2317 0.0421 0.3481 2.2040 σ

_p0,2²

1.4310 0.3965 0.7426 1.4210 2.2390 σ

_p1,1²

1.4560 0.3966 0.7350 1.4510 2.5920 σ

_p1,2²

1.7430 0.3916 1.0620 1.7160 2.7940 σ

_p2,1²

2.0800 0.3457 1.4370 2.0760 2.7100 σ

_p2,2²

1.6010 0.5361 0.7094 1.5280 0.0088 σ

_m0,1²

3.5700 1.1450 1.3340 3.6300 2.9310 σ

_m0,2²

1.1060 0.7291 0.0964 0.9694 6.3030 σ

_m1,1²

2.1560 1.5090 0.4418 1.7240 5.6820 σ

_m1,2²

1.9100 1.4520 0.2008 1.4790 3.7070 σ

_m2,1²

1.5590 0.8730 0.3851 1.3890 6.0050 σ

_m2,2²

2.6710 1.3960 0.6022 2.4480 0.8676

이

ᆯ부지역에서는스트레스 인지율이 통계적으로 유의하였으며 그렇지 않은지역에서는스트레스 인지율 ᄋ

ᅵ 통계적으로 유의하지 않은그룹임을확인할 수 있었다. 이처럼 설명변수가 가진 지역적인 분포와 달 ᄅ

ᅵ, 종속변수에 대한 영향력은그 분포가 다를수 있으며 크기 또한 다를수 있음을확인하였다.

(a) clusters of ˆ β

0

(b) clusters of ˆ β

1

(c) clusters of ˆ β

2

Figure 3.3 Estimated spatial cluster maps of the regression coefficients in model 3-2

ᄎ

ᅮ가분석으로 회귀계수마다 군집의 개수를 5개까지 확장하면서 민감도 분석을 실시하였다. Figure 3.4에서 보여지듯이 모형별로 일정하지는않지만 군집의 수가 늘어날수록 DIC와 MSPE의 수치가 현저 ᄒ

ᅵ 작아짐을확인할 수 있다. 특히, multinomial spatial mixture 모형을 적용한 모형 3-2의 5개 군집 ᄇ

ᅡᆼ법이 DIC가 -677.1631, MSPE가 0.0298로 가장 우수한 결과값을보였다.

5개 군집을가진 모형 3-2의 군집화된 결과를보면 Table 3.3과 같이 각 군집에 속하는지역수가 0인 겨

ᆼ우가 일부 군집에서 나타나면서, 실질적으로 나눠지는 군집의 수는 3개 정도로 나타났다. 이 결과는 ᄀ

ᅳ룹의 개수가 많아지는것이 모형에 잘 적합되는것처럼 보이지만, 실제로는 필요 이상의 군집으로 나

(10)

(a) DIC (b) MSPE Figure 3.4 Comparison results in terms of DIC and MSPE up to 5 groups

ᄂ

ᅱ는결과를가져올수 있음을확인하였다. 또한 3군집의 결과와 비교했을때 오히려 모형의 성능은감 ᄉ

ᅩ한 결과를보였으며, 회귀계수 추정치를살펴봤을때 2개 정도의 군집은비슷한 추정치를보이면서 실 ᄌ

ᅦ적으로는처음에 고려하였던 2군집과큰차이가 없음을확인할 수 있었다.

ᄆ

ᅩ형 3-2에서 분산모수에 대한 사전분포를 균일분포가 아닌 역감마분포 (inverse gamma distribution)을 고려하여 모형의 적합도와 회귀계수의 추정치를 비교하였다. 분산에 대한 사전분포로 IG(0.001,0.001)를고려하여 자료를적합한 경우, DIC=-325.073 (deviance=-412.00), MSPE=0.7201, ᄀ

ᅳ리고 PML=156.573이며, 이는 모형의 적합도 측면에서 역감마분포보다는 균일본포가 더 우월함을 ᄋ

ᅡ

ᆯ 수 있다. 이에 반해, 회귀계수에 대한 추정치는 균일분포를고려한 모형이나 역감마분포를고려한 모 혀

ᆼ이나 통계적으로 유의한 차이가 없음을확인하였다.

Table 3.3 The number of grouping for each coefficient in model 3-2 with 5 groups parameter group 1 group 2 group 3 group 4 group 5

β

0

3 64 153 32 0

β

1

0 24 144 79 5

β

₂

0 23 151 70 7

4. 결론 보

ᆫ 논문에서는베이지안 계층적 모형에서 회귀계수의 공간상관성을고려한 이산 군집화 방법을이용 ᄒ

ᅡ여 국내 당뇨병 유병률자료를처음으로 공간모형에 적합시키고 나아가 공간상관성 군집화 방법을적 ᄋ

ᅭ

ᆼ한 결과를비교하였다. 분석결과 2개로 군집화를하였을때, 적합도와 예측력 측면에서 multinomial spatial mixture모형이 우수한 결과를 나타내었다. 회귀계수의 모수 추정값은큰차이를보이지 않았 ᄌ

ᅵ만 회귀계수별로 군집화 지도를 통하여 지역적 양상이 다름을확인하였다. 5개의 군집까지 민감도 분 ᄉ

ᅥ

ᆨ을 실시한 결과 적합도와 예측력 측면이 현저히 좋아졌지만, 모수 추정치와 군집별 지역의 수를 분석 ᄒ

ᅡᆫ 결과 2군집의 결과와큰차이가 없음을알 수 있었다.

ᄇ

ᅩᆫ연구에 제시된 군집화 방법 외에도 공간상관성을고려한 다양한 사전분포의 가정을 통한 모형의 적 ᄒ

ᅡᆸ과 군집화에 맞는회귀계수를선택하여 선별적 군집화를 실시한 연구가 필요할 것으로 생각된다. 또 ᄒ

ᅡᆫ, 선별된 회귀계수별로 각기 알맞은 군집의 수를 선택하여 모델에 적용함으로써 최적의 모형을 탐색 ᄒ

ᅡ는연구가 추후 필요하다. 본연구에서는 2014년 지역사회 건강조사 자료만을이용한 분석을 진행하

(11)

ᄋ

ᅧᆻ다. 하지만 최근 2015년과 2016년 자료를 이용하여 회귀계수 군집화 결과를 비교하고, 2008년부터 2016년까지의 지역사회 건강조사 자료에 대한 시공간 상관성을고려한 회귀계수 군집화의 시간적 변동 ᄋ

ᅦ관해 추후 연구가 필요하다. 따라서, 향후 다양한 자료의 적합을 통하여 군집화 방법에 대한 연구가 피

ᆯ요할 것으로 사료된다.

References

Anselin, L. (1995). Local indicators of spatial association. Geographical Analysis, 27, 93-115.

Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems (with discussion). Journal of the Royal Statistical Society B , 36, 192-236.

Brook, D. (1964). On the distinction between the conditional probability and the joint probability ap- proaches in the specification of nearest-neighbour systems. Biometrika, 51, 481-483.

Casella, G. and Robert, C. P. (2004). Mixture models, latent variables and partitioned importance sampling.

Statistical Methodology, 1, 1-18.

Chen, M., Shao, Q. and Ibrahim, J. (2000). Monte Carlo methods in Bayesian computation, Springer Verlag, New York.

Choi, J. (2016). Bayesian spatial analysis of obesity proportion data. Journal of the Korean Data &

Information Science Society, 27, 1203-1214.

Choi, J., Lawson, A. B., Cai, B. and Hossain, M. M. (2011). Evaluation of Bayesian spatial-temporal latent models in small area health data. Environmetrics, 22, 1008-1022.

Clifford, P. (1990). Markov random fields in statistics, Oxford University Press, Oxford.

Congdon, P. (2005). Bayesian models for categorical data, John Wiley and Sons, New York.

Fotheringham, A. S., Brunsdon, C. and Charlton, M. (2002). Geographically weighted regression: The analysis of spatially varying relationships, Wiley, New York.

Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1, 515-533.

Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches to the caculation of posterior moments, in Bayesian statistics, Bernardo, J. M., Berger, J., Dawid, A. P. and Smith, A. F. M., Oxford University Press, Oxford.

Jasra, A., Holmes, C. C. and Stephens, D. A. (2005). Markov chain Monte Carlo methods and the label switching problem in Bayesian mixture modeling. Statistical Science, 20, 50-67.

Jo, E. K., Seo, E.W. and Lee, K. S. (2016). Spatial distribution of diabetes prevalence rates and its relationship with the regional characteristics. Health Policy and Management , 26, 30-38.

Kim, B. and Lim, C. Y. (2016). Modeling pediatric tumor risks in Florida with conditional autoregressive structures and identifying hot-spots. Journal of the Korean Data & Information Science Society, 27, 1225-1239.

Kim, Y. M., Cho, D. G. and Kang, S. H. (2014). An empirical analysis on geographic variations in the prevalence of diabetes. Health and Social Welfare Review , 34, 82-105.

Ko, Y., Han, J., Yoon, T., Kim, C. and Noh, M. (2016). Cancer incidence and mortality estimation in Busan by using spatial multi-level model. Journal of the Korean Data & Information Science Society, 27, 1167-1182.

Korean Diabetes Association. (2015). Korean diabetes fact sheet 2015, Avaiable from http://www.

diabetes.or.kr

Lawson, A. B., Choi, J. and Zhang, J. (2014). Prior choice in discrete latent modeling of spatially referenced cancer survival. Statistical Methods in Medical Research, 23, 183-200.

Park, J., Kim, C. and Han, J. (2016). Spatio-temporal analysis of tuberculosis mortality estimations in Korea. Journal of the Korean Data & Information Science Society, 27, 1183-1191.

Plummer, M., Best, N. G., Cowles, K. and Vines, K. (2006). coda: Convergence diagnosis and output analysis for MCMC. R News, 6, 7-11.

Richardson, S., Abellan, J. J. and Best, N. (2006). Bayesian spatio-temporal analysis of joint patterns of male and female lung cancer risks in Yorkshire (UK). Statistical Methods in Medical Research, 15, 385-407.

Spiegelhalter, D. J., Best, N., Carlin, B. P. and van der Linde, A. (2002). Bayesian measures of model

complexity and fit (with discussion). Journal of the Royal Statistical Society B , 64, 583-639.

(12)

2018, 29

(

3)

,

633–644

Analysis of domestic diabetes prevalence data using Bayesian spatially-dependent clustering models in

regression coefficients ^†

Sojin Hong

¹

· Dayun Kang

²

· Jungsoon Choi

³

12Department of Applied Statistics, Hanyang University

3Department of Mathematics, Hanyang University

Received 20 September 2017, revised 4 May 2018, accepted 14 May 2018

Abstract

In spatial regression modeling, it is commonly assumed that spatial random compo- nents are considered to explain the spatial dependency structures and regression coefficient is constant over the entire spatial domain. However, the regression coefficient may have spatial dependency structures and be different depending on the sub-regions. Re- cently, Lawson et al. (2014) proposed Bayesian discrete clustering methods of spatially dependent regression coefficients and applied them to cancer survival dataset. Bayesian hierarchical approach was utilized to explain the complicated spatial dependent structures. In this paper, we first analyze the diabetes prevalence data for the entire 252 administrative districts of South Korea in 2014 year using spatially-dependent regression coefficient clustering models. We evaluate the performance of the proposed spatial models with the non-spatial model.

Keywords: Bayesian inference, CHS, clustering, diabetes prevalence rates data, spatial model.

†

This work was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Science, ICT & Future Planning (NRF- 2015R1C1A1A02037495).

1

Graduate student, Department of Applied Statistic, Hanyang University, 222, Wangsimni-ro, Seong- donggu, Seoul, 04763, Korea.

2

Ph D. student, Department of Applied Statistic, Hanyang University, 222, Wangsimni-ro, Seongdonggu, Seoul, 04763, Korea.

3

Analysis of domestic diabetes prevalence data using Bayesian spatially-dependent clustering models in regression coefficients<sup>†</sup>

2018, 29

3)

633–644

공간상관성을 고려한 회귀계수의 베이지안 군집모형을 이용한 국내 당뇨병 유병률 자료 분석 †

1

2

3

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ

ᄀ

ᅩ

ᅡ

ᅳ ᆯ ᄇ ᅵᄀ ᅭᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼ, ᄀ ᅮ ᆫᄌ ᅵ ᆸ, ᄃ ᅡ ᆼᄂ ᅭᄇ ᅧ ᆼ ᄋ ᅲᄇ ᅧ ᆼᄅ ᅲ ᆯ ᄌ ᅡᄅ ᅭ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄎ ᅮᄅ ᅩ ᆫ, ᄌ ᅵᄋ ᅧ ᆨᄉ ᅡᄒ ᅬᄀ ᅥ ᆫᄀ ᅡ ᆼᄌ ᅩᄉ ᅡ.

ᆺᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ (NRF-2015R1C1A1A02037495). ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄌ ᅦ1ᄌ ᅥᄌ ᅡ ᄒ ᅩ ᆼ ᄉ ᅩᄌ ᅵ ᆫᄋ ᅴ ᄉ ᅥ ᆨᄉ ᅡᄒ ᅡ ᆨᄋ ᅱᄂ ᅩ ᆫᄆ ᅮ ᆫ (2017) ᄋ ᅴ ᄋ ᅵ ᆯᄇ ᅮᄅ ᅳ ᆯ ᄇ

ᅡ ᆯᄎ ᅰ, ᄉ ᅮᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄀ ᅥ ᆺᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ.

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄉ ᅮᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(a) diabetes prevalence rates (b) hypertension prevalence rates (c) stress recognition rates Figure 3.1 Maps of prevalence rates

(a) cluster map of diabetes (b) cluster map of hypertension (c) cluster map of stress

Figure 3.2 Spatial cluster maps of prevalence rates

Table 3.1 Comparison results of the models in terms of DIC, MSPE, and PML

Model deviance p

DIC MSPE PML

1-1 -305.8780 4.0060 -301.8773 0.8137 150.7312 1-2 -348.9461 31.4087 -317.5373 0.8137 158.3115 2-1 -398.6308 67.1771 -335.4537 0.5715 160.6342 2-2 -366.5160 42.2992 -314.2167 0.6925 136.1510 3-1 -491.6436 114.4223 -337.2213 0.2850 162.1489 3-2 -544.6729 122.6712 -442.0017 0.2070 178.0418

Table 3.2 Parameter estimates in the best-fitted model (model 3-2)

parameter mean sd 2.5% median 97.5%

β

1.3880 0.0938 1.1990 1.3880 1.5690 β

1.3150 0.0928 1.1330 1.3150 1.4960 β

0.0292 0.0038 0.0217 0.0292 0.0370 β

0.0250 0.0041 0.0173 0.0249 0.0332 β

0.0088 0.0022 0.0043 0.0088 0.0131 β

0.0038 0.0025 -0.0009 0.0038 0.0087 σ

0.0073 0.0025 0.0031 0.0071 0.0122 σ

0.0037 0.0021 0.0008 0.0033 5.6980 σ

0.3778 0.2317 0.0421 0.3481 2.2040 σ

1.4310 0.3965 0.7426 1.4210 2.2390 σ

1.4560 0.3966 0.7350 1.4510 2.5920 σ

1.7430 0.3916 1.0620 1.7160 2.7940 σ

2.0800 0.3457 1.4370 2.0760 2.7100 σ

1.6010 0.5361 0.7094 1.5280 0.0088 σ

3.5700 1.1450 1.3340 3.6300 2.9310 σ

1.1060 0.7291 0.0964 0.9694 6.3030 σ

2.1560 1.5090 0.4418 1.7240 5.6820 σ

1.9100 1.4520 0.2008 1.4790 3.7070 σ

1.5590 0.8730 0.3851 1.3890 6.0050 σ

2.6710 1.3960 0.6022 2.4480 0.8676

(a) clusters of ˆ β

(b) clusters of ˆ β

(c) clusters of ˆ β

Figure 3.3 Estimated spatial cluster maps of the regression coefficients in model 3-2

(a) DIC (b) MSPE Figure 3.4 Comparison results in terms of DIC and MSPE up to 5 groups

Table 3.3 The number of grouping for each coefficient in model 3-2 with 5 groups parameter group 1 group 2 group 3 group 4 group 5

β

3 64 153 32 0

β

0 24 144 79 5

β

0 23 151 70 7

Anselin, L. (1995). Local indicators of spatial association. Geographical Analysis, 27, 93-115.

Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems (with discussion). Journal of the Royal Statistical Society B , 36, 192-236.

Brook, D. (1964). On the distinction between the conditional probability and the joint probability ap- proaches in the specification of nearest-neighbour systems. Biometrika, 51, 481-483.

Casella, G. and Robert, C. P. (2004). Mixture models, latent variables and partitioned importance sampling.

Statistical Methodology, 1, 1-18.

Chen, M., Shao, Q. and Ibrahim, J. (2000). Monte Carlo methods in Bayesian computation, Springer Verlag, New York.

Choi, J. (2016). Bayesian spatial analysis of obesity proportion data. Journal of the Korean Data &

Information Science Society, 27, 1203-1214.

Choi, J., Lawson, A. B., Cai, B. and Hossain, M. M. (2011). Evaluation of Bayesian spatial-temporal latent models in small area health data. Environmetrics, 22, 1008-1022.

Clifford, P. (1990). Markov random fields in statistics, Oxford University Press, Oxford.

Congdon, P. (2005). Bayesian models for categorical data, John Wiley and Sons, New York.

Fotheringham, A. S., Brunsdon, C. and Charlton, M. (2002). Geographically weighted regression: The analysis of spatially varying relationships, Wiley, New York.

Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1, 515-533.

Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches to the caculation of posterior moments, in Bayesian statistics, Bernardo, J. M., Berger, J., Dawid, A. P. and Smith, A. F. M., Oxford University Press, Oxford.

Jasra, A., Holmes, C. C. and Stephens, D. A. (2005). Markov chain Monte Carlo methods and the label switching problem in Bayesian mixture modeling. Statistical Science, 20, 50-67.

Jo, E. K., Seo, E.W. and Lee, K. S. (2016). Spatial distribution of diabetes prevalence rates and its relationship with the regional characteristics. Health Policy and Management , 26, 30-38.

Kim, B. and Lim, C. Y. (2016). Modeling pediatric tumor risks in Florida with conditional autoregressive structures and identifying hot-spots. Journal of the Korean Data & Information Science Society, 27, 1225-1239.

Kim, Y. M., Cho, D. G. and Kang, S. H. (2014). An empirical analysis on geographic variations in the prevalence of diabetes. Health and Social Welfare Review , 34, 82-105.

공간상관성을 고려한 회귀계수의 베이지안 군집모형을 이용한 국내 당뇨병 유병률 자료 분석 ^†

¹

²

³

regression coefficients ^†

¹

²

³