2018, 29
(3)
,633–644
공간상관성을 고려한 회귀계수의 베이지안 군집모형을 이용한 국내 당뇨병 유병률 자료 분석 †
ᄒ
ᅩᆼ소진
1
·강다연2
·최정순3
12한양대학교 응용통계학과 ·3한양대학교 수학과
ᄌ ᅥ
ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ
요 약
ᄀ
ᅩ
ᆼ ᄀ ᅡ ᆫᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄋ ᅵ ᆷᄋ ᅴᄉ ᅥ ᆼᄇ ᅮ ᆫ (random component)ᄋ ᅳ ᆯ ᄎ
ᅮᄀ ᅡᄒ ᅡᄋ ᅧ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅮᄌ ᅩᄅ ᅳ ᆯ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡᄆ ᅧ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄂ ᅳ ᆫ ᄌ ᅮᄋ ᅥᄌ ᅵ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄋ ᅧ ᆼᄋ ᅧ ᆨ (spatial domain) ᄂ ᅢᄋ ᅦᄉ ᅥ ᄀ ᅩᄌ ᅥ ᆼᄃ ᅬ ᄋ
ᅥ ᄋ ᅵ ᆻᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅡᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄃ ᅡ. ᄋ ᅵᄂ ᅳ ᆫ ᄇ ᅵᄅ ᅩ ᆨ ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆫ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄋ ᅵ ᄃ ᅬᄌ ᅵᄆ ᅡ ᆫ, ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫᄉ ᅮ ᄋ
ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄅ ᅧ ᆨᄋ ᅵ ᄌ ᅵᄋ ᅧ ᆨᄆ ᅡᄃ ᅡ ᄋ ᅵ ᆯᄌ ᅥ ᆼᄒ ᅡᄃ ᅡᄂ ᅳ ᆫ ᄋ ᅴᄆ ᅵᄅ ᅩ ᄒ ᅢᄉ ᅥ ᆨᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ, ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅡᄅ ᅭᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼ ᄉ
ᅡ ᆼ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮ ᄌ ᅡᄎ ᅦᄀ ᅡ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵ ᆯ ᄉ ᅮᄃ ᅩ ᄋ ᅵ ᆻᄀ ᅩ, ᄃ ᅥᄇ ᅮ ᆯ ᄋ ᅥ ᄉ ᅩᄌ ᅵᄋ ᅧ ᆨᄆ ᅡᄃ ᅡ ᄉ ᅥᄅ ᅩ ᄃ ᅡᄅ ᅳ ᆫ ᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵ ᆯ ᄉ ᅮᄃ ᅩ ᄋ ᅵ ᆻᄃ ᅡ.
ᄎ ᅬ ᄀ ᅳ ᆫ, Lawson ᄃ ᅳ ᆼ (2014)ᄋ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄋ ᅵᄉ ᅡ ᆫ ᄀ ᅮ ᆫᄌ ᅵ ᆸᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄀ ᅩ ᄋ
ᅡ
ᆷᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅵᄄ ᅢ, ᄇ ᅩ ᆨ ᄌ ᅡ ᆸᄒ ᅡ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅮᄌ ᅩᄅ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄀ ᅨᄎ ᅳ ᆼᄌ ᅥ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᄉ
ᅡᄋ ᅭ ᆼ ᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ 2014ᄂ ᅧ ᆫ ᄀ ᅮ ᆨ ᄂ ᅢ 252ᄀ ᅢ ᄉ ᅵᄀ ᅮ ᆫ ᄀ ᅮᄇ ᅧ ᆯ ᄃ ᅡ ᆼᄂ ᅭᄇ ᅧ ᆼ ᄋ ᅲᄇ ᅧ ᆼᄅ ᅲ ᆯ ᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄎ ᅥᄋ ᅳ ᆷ ᄋ ᅳᄅ ᅩ ᄀ ᅩ ᆼ ᄀ
ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄉ ᅵᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄂ ᅡᄋ ᅡᄀ ᅡ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄋ ᅵᄉ ᅡ ᆫ ᄀ ᅮ ᆫᄌ ᅵ ᆸᄒ ᅪ ᄆ
ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡᄋ ᅧ ᄌ ᅦᄉ ᅵᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ
ᅳ ᆯ ᄇ ᅵᄀ ᅭᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄆ ᅩᄒ ᅧ ᆼ, ᄀ ᅮ ᆫᄌ ᅵ ᆸ, ᄃ ᅡ ᆼᄂ ᅭᄇ ᅧ ᆼ ᄋ ᅲᄇ ᅧ ᆼᄅ ᅲ ᆯ ᄌ ᅡᄅ ᅭ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄎ ᅮᄅ ᅩ ᆫ, ᄌ ᅵᄋ ᅧ ᆨᄉ ᅡᄒ ᅬᄀ ᅥ ᆫᄀ ᅡ ᆼᄌ ᅩᄉ ᅡ.
1. 서론 ᄋ
ᅧᆨ학,환경 보건학, 기후학, 생태학 등다양한 영역에서 공간을기본으로 수집되는데이터를 공간자료 ᄅ
ᅡ고 하며, 일반적으로 거리에 기반을 둔 공간상관성을가지게 되며 이러한 점을고려한 분석이 요구된 ᄃ
ᅡ. 고전 통계모형은 공간자료의 복잡한 공간상관성을고려하는데 어려움이 있었지만, 베이지안 계층 ᄌ
ᅥᆨ 모형은 복잡한 상관구조를효과적으로 설명할 수 있으며 불확실성에관한 모형화를가능하게 하였다 (Richardson 등, 2006).
ᄎ
ᅬ근 역학 분야에서는 질병의 원인을 규명하고 나아가 질병의 지역적인 패턴 (pattern)을확인하고 ᄌ
ᅡ 공간 단위의 연구가 중요하게 다루어지고 있다. 역학분야에서의 대부분의 공간 모형은주어진 공간 여
ᆼ역 내에서의 공간상관성을 설명하는 임의성분 (random component)을포함하고 있다 (Choi, 2016;
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄆ ᅵᄅ ᅢᄎ ᅡ ᆼᄌ ᅩᄀ ᅪᄒ ᅡ ᆨᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅥ
ᆺᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ (NRF-2015R1C1A1A02037495). ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄌ ᅦ1ᄌ ᅥᄌ ᅡ ᄒ ᅩ ᆼ ᄉ ᅩᄌ ᅵ ᆫᄋ ᅴ ᄉ ᅥ ᆨᄉ ᅡᄒ ᅡ ᆨᄋ ᅱᄂ ᅩ ᆫᄆ ᅮ ᆫ (2017) ᄋ ᅴ ᄋ ᅵ ᆯᄇ ᅮᄅ ᅳ ᆯ ᄇ
ᅡ ᆯᄎ ᅰ, ᄉ ᅮᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄀ ᅥ ᆺᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ.
1
(04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅡᄋ ᅧ ᆫᄀ ᅪᄒ ᅡ ᆨᄃ ᅢᄒ ᅡ ᆨ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨ, ᄉ ᅥ ᆨᄉ ᅡ ᄌ ᅩ ᆯᄋ ᅥ ᆸᄉ ᅢ ᆼ.
2
(04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅡᄋ ᅧ ᆫᄀ ᅪᄒ ᅡ ᆨᄃ ᅢᄒ ᅡ ᆨ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨ, ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
3
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (04763) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄉ ᅥ ᆼᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅪ ᆼ ᄉ ᅵ ᆸᄅ ᅵᄅ ᅩ 222, ᄒ ᅡ ᆫᄋ ᅣ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄉ ᅮᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
Kim과 Lim, 2016; Ko 등, 2016; Park 등, 2016). 그러나 이러한 연구에서 회귀계수는 지역마다 일 저
ᆼ한 값으로 간주해왔다는 데 한계가 있다. 일반적으로 질병자료가 공간자료인 경우, 질병에 대한 위 ᄒ
ᅥᆷ인자의 영향력인 회귀계수 역시 지역마다 서로 상이한 값을 가질 수 있다. 이런 회귀계수의 공간상 과
ᆫ성을 고려한 가장 대표적인 모형이 지리가중회귀모형 (geographically weighted regression model;
Fotheringham 등, 2002)이며, 이는회귀계수에 대한 연속적인 공간적 변동성을가정하고 있다. 하지 ᄆ
ᅡᆫ, 경우에 따라서는 일부 지역들은 동일한 회귀계수 값을 가질 수 있기 때문에, 연속적 공간적 변동성 으
ᆯ회귀계수에 고려하는 것보다 공간적 군집성을 고려하는것이 적절하다. 이와 관련하여 Lawson 등 (2014)이 처음으로 생존자료에 대하여 회귀계수의 공간적 군집모형을제안하였다.
보
ᆫ 연구에서는 2014년 국내 252개 시군구별 당뇨병 유병률 자료에 대하여 공간모형을 적합하고, Lawson 등 (2014)이 제안한 군집화 방법까지 적용하여 분석하고자 한다. 한국 당뇨병 유병률과 관련 되
ᆫ기존연구 중에서 공간상관성을고려한 연구와 더불어 회귀계수를 군집화 하는시도는이루어지지 않 ᄋ
ᅳ
ᆫ상황이다. 따라서, 본연구를 통해 공간상관성을가진 회귀계수의 군집모형의 중요성을적합도와 예 ᄎ
ᅳᆨ력 측면에서 나타내고자 한다. 더불어, 역학자료에 대한 분석의 이해를 돕고 나아가 다양한 분야에서 ᄀ
ᅩ
ᆼ간모형과 회귀계수 군집모형을 통한 분석을활용하는데 도움이 되고자 한다.
보
ᆫ 논문의 구성은 다음과 같다. 2절에서는 공간 모형의 조건부 자기 회귀 모형과 공간상관성 군집화 ᄋ
ᅦ 대한 이론적인 방법론을 소개하였다. 3절에서는 국내 당뇨병 유병률 자료에 대한 소개와 실제 자료 ᄇ
ᅮᆫ석을 실시한 결과를서술하였고 4절에서는연구의 결론에관하여 기술하였다.
2. 베이지안 공간 모형 ᄌ
ᅵ역 i에 대하여 yi를연속형 종속변수라 하고 XXXi를설명변수로 하는선형 회귀 모형은 식 (2.1)과 같 ᄃ
ᅡ.
yi= µi+ ϵi= XXXTiβββ + ϵi, ϵi∼ N (0, σ2), i = 1, 2, · · · , n, (2.1) ᄋ
ᅧ기서, n는자료의 총 개수이며, µi는 종속변수의 평균으로 설명변수 XXXi와 회귀계수 βββ의 선형결합으 ᄅ
ᅩ 표현되며, ϵi는 랜덤오차 (random error)를나타낸다.
ᄀ ᅩ
ᆼ간상관성을모형에 고려하기 위하여 공간상관성을가진 임의성분 vi를고려하면 식 (2.2)와 같다.
yi= XXXTiβββ + vi+ ϵi. (2.2) ᄋ
ᅵ 때, 공간자료의 종류에 따라 vi에 고려할 수 있는모형은각기 다르다. 2.1절에서는격자자료 (lat- tice data)의 공간상관성을고려한 대표적 모형인 조건부 자기회귀 모형을 소개하고, 2.2절에서 회귀계 ᄉ
ᅮ의 공간상관성을고려한 군집모형에 대하여 자세히 기술하겠다.
2.1. 조건부 자기회귀 모형 ᄀ
ᅩ
ᆼ간 임의성분 vi의 조건부 자기회귀 모형 (conditional autoregressive model; CAR model)은다음 ᄀ
ᅪ 같이 정의된다 (Besag, 1974).
vi|vs, s ̸= i ∼ N X
s=1
aisvs, σi2
!
, i = 1, 2, · · · , n.
Brooks의 보조정리 (Brook, 1964)와 Hammersley-Clifford 정리 (Besag, 1974; Clifford, 1990)에 의 ᄒ
ᅢ서 유한한 n인 경우 vvv = (v1, v2, · · · , vn)T의 결합확률분포는다음과 같이 정의된다.
v v
v ∼ N (0, (IIInnn− AAA)−1DDD).
ᄒ
ᅢᆼ렬 AAA = {ais}, DDD = Diag{σi2}이며 IIIn은 n차원의 단위행렬 (identity matrix)을 의미한다. 본 ᄋ
ᅧᆫ구에서는 his는 인접성을 기반으로 두 지역의 경계선이 공유하는 경우는 1, 아니면 0으로 정의하 ᄆ
ᅧ, hi+ = Pn
s=1his는 i지역에 인접한 지역의 총개수가 된다. 이를기반으로 ais = his/hi+, σ2i = σ2v/hi+라고 정의하며, σv2은 공간모형에서의 분산 모수이다. 따라서, i지역의 조건부 자기회귀모형은 ᄋ
ᅵᆫ접한 s지역의 가중 평균을 평균으로 가지는 정규분포로 정의된다. 이 모형을 고유 조건부 자기상관 (intrinsic conditional autoregressive; ICAR)모형이라고 하며, vvv ∼ ICAR(σv2)로 표현한다.
2.2. 회귀계수의 공간상관성을 고려한 군집모형
Lawson 등 (2014)의 연구에서 소개된회귀계수를지역마다 달리 군집화하여, 각 그룹마다 다른회귀 ᄀ
ᅨ수 값을적용하는 공간 군집모형을소개하고자 한다.
서
ᆯ명변수가 L개 있다고 가정하면, 각각의 회귀계수는각기 다른그룹의 개수를가질 수 있다. l번째 ᄒ
ᅬ귀계수가 가질 수 있는그룹의 개수를 kl로 표현하면, l번째 회귀계수에서 i지역이 속하는그룹의 라 ᄇ
ᅦᆯ (label) zl,k(i)의 범위는 식 (2.3)과 같다.
zl,k(i)= 1, 2, · · · , kl. (2.3)
ᄋ
ᅵ를모든 L개의 설명변수에 적용하여, 식 (2.1)에서 평균에 해당하는항을다시 표현하면 식 (2.4)와 ᄀ
ᅡ ᇀ다.
XXXTiβββ = β0z0,k(i)+ β1z1,k(i)x1i+ · · · + βLzL,k(i)xLi. (2.4) ᄋ
ᅵ 때, 군집의 라벨이 되는 zl,k(i)의 분포 가정에 따라 군집화 방법이 다르게 되며 공간상관성을적용 ᄒ
ᅡᆫ 군집화 방법 2가지를구체화하여 소개하고자 한다.
처
ᆺ 번째 방법은 군집화를 결정하는 확률변수에 ICAR 모형을적용하는 데 있다. 그리고 군집화 결 저
ᆼ 확률에 일정한 기준치를 둠으로써 그룹을 결정하게 된다. 기준치가 어떻게 적용되는지 설명하기에 ᄋ
ᅡ
ᇁ서, 공간상관성을 적용한 군집화를 고려하기 위하여 ICAR모형을 따르는 확률변수 zl(i)∗ 를 먼저 식 (2.5)과 같이 정의하고자 한다.
zl(i)∗ ∼ ICAR(σ2zl). (2.5) ᄀ
ᅵ준치가 적용되는 과정을 예를 들어 소개한 후 일반적인 경우로 확장하겠다. 예를 들어, l번째 설 며
ᆼ변수가 2개의 그룹으로 나눠진다고 가정하자. 그러면 기준치를 1/2로 두고, zl(i)∗ 의 누적확률 값이 1/2보다 작으면 1 군집, 1/2보다 크면 2 군집으로 군집화를 하는 것이다. 3개의 군집으로 나뉘는 경 ᄋ
ᅮ를 생각하면, 확률 값을 일정하게 3등분하여 1/3, 2/3가 기준치가 된다. 즉, zl(i)∗ 의 누적 확률 값이 1/3보다 작으면 1 군집, 1/3보다 크고 2/3보다 작으면 2 군집으로 2/3보가 크고 1보다 작으면 3군집이
ᄃ
ᅬ는것이다. l번째 회귀계수가 kl개의 군집을가지고 있다고 가정할 때, zl,k(i)의 분포는 식 (2.6)과 같 ᄃ
ᅡ.
P r(zl,k(i)= k) = I(·), k = 1, 2, · · · , kl
I(·) =
1 if (k − 1)/kl< Φ(z∗l(i)) ≤ k/kl
0 otherwise,
(2.6)
ᄋ
ᅧ기서 Φ(zl(i)∗ )는 zl(i)∗ 의 누적확률값이며, 이러한 공간상관성 군집화 방법을 threshold car model이라 ᄀ
ᅩ 정의한다.
ᄃ
ᅮ 번째 방법은 zl,k(i)은 보통 2가지 이상의 다양한 경우의 수를 가질 수 있기 때문에 다항분포 (multinomial distribution; Multi)를 가정한다. 여기서 zl,k(i)에 대하여 단일 다항분포를 가정하면, zl,k(i)= k (k = 1, 2, · · · , kl)를의미하고 그 때의확률은 pl,k(i)가된다. 수식은 식 (2.7)와 같이 구체화 되
ᆫ다.
(zl,k(i)= 1, zl,k(i)= 2, · · · , zl,k(i)= kl) ∼ Multi(pl,1(i), pl,2(i), · · · , pl,kl(i); 1). (2.7) ᄋ
ᅵ 때,확률 pl,k(i)은 0과 1사이의 값이므로 0보다큰확률변수 p∗l,k(i)를생성하여 식 (2.8)로 정의할 ᄉ
ᅮ 있다.
pl,k(i)= p∗l,k(i) Pkl
k=1p∗l,k(i), k = 1, 2, · · · , kl, (2.8)
ᄋ
ᅧ기서 각각의 pl,k(i)는 zl,k(i) = k에 할당되는 확률로서 새로운 변수 p∗l,k(i)로 대응된다. 이 때, p∗l,k(i)는 0보다 큰 범위에서 존재하기 때문에, 식 (2.9)에서 분포가정으로 로그 정규분포 (log-normal distribution; LN)를가정한다.
p∗l,k(i)∼ LN (ml,k(i), σ2pl,k). (2.9)
시
ᆨ (2.9)에서 각각의 평균 ml,k(i)에 대하여 분산 σ2ml,k인 공간상관성 분포 ICAR을고려함으로서 공 ᄀ
ᅡᆫ상관성을이용한 군집화 모형이완성된다.
ml,k(i)∼ ICAR(σm2l,k).
ᄃ
ᅡᆫ일 다항분포를 기반으로 공간상관성을가진 모형을결합하였기 때문에, 이를 multinomial spatial mixture model이라고 정의한다.
2.3. 베이지안 추론 보
ᆫ 절에서는 2.2절에서 소개한 모형 중 multinomial spatial mixture model을고려하는 경우, 베이 ᄌ
ᅵ안 추정법을사용하여 모형에서 고려한 모수를추정하는 과정을간단히 기술하고자 한다. 자료 YYY = (y1, y2, · · · , yn)T의 우도함수는다음과 같이 기술된다.
L(θθθ |YYY , XXX) ∝
σ2IIInnn+ (IIInnn− AAA)−1DDD exp
−1
2(YYY − XXXTβββ)T(σ2IIInnn+ (IIInnn− AAA)−1DDD)−1(YYY − XXXTβββ)
, ᄋ
ᅧ기서, 벡터 θθθ는 본모형에서 고려하는모든모수로 정의된다. 각 모수간 상호독립의 가정과 함께 회귀 ᄀ
ᅨ수에 다음과 같이 무정보적 사전분포를가정한다.
βlzl,k(i)∼ N (0, 104), l = 0, 1, 2, k = 1, 2.
부
ᆫ산에 대한 사전분포로는 Gelman (2006)이 제안한 균등분포 (uniform distribution)를다음과 같이 ᄌ
ᅥ
ᆨ용하였다.
σ2, σv2, σ2zl, σ2pl,k, σ2ml,k ∼ U nif (0, 10).
ᄆ
ᅩ수 벡터 θθθ에 대한 추론은사전분포와 우도함수의 결합인 사후분포 (posterior distribution)를기반 ᄋ
ᅳ로 이루어진다.
p(θθθ|YYY ) ∝ L(θθθ|YYY , XXX)p(zl,k(i)|·)p(σ2)p(σv2)p(βββ)Y
p(σ2pl,k)Y
p(σ2ml,k).
ᄆ
ᅩ수 추정은 마코브 연쇄 몬테칼로 (Markov chain Monte Carlo; MCMC)기법을 사용하여 통 ᄀ
ᅨ 패키지 WinBUGS (http://www.mrc-bsu.cam.ac.uk/software/bugs)를 사용하여 분석하였다 (Casella와 Robert, 2004). 각 모형은하나의 초기값으로부터 총 28,000번의 burn-in을하고, 매 50번 ᄍ
ᅢ 해당하는 7,000개의 사후표본을모수 추정에 사용하였다. 본 논문에서는다중연쇄를 진행하는경우 ᄀ
ᅡ
ᆨ 연쇄별 군집 결과의 혼란 (Jasra 등, 2005)이 발생할 수 있기 때문에 이를방지하기 위하여 단일 연쇄 르
ᆯ고려하였다 (Choi 등, 2011).
ᄀ ᅡ
ᆨ 모수들의 수렴결과를 확인하기 위하여 자기상관 그림 (autocorrelation plot), 시도표 (trace plot), Geweke 통계량 (Geweke, 1992)을 사용하였다. Geweke 통계량은 통계 프로그램 R (http:
//www.R-project.org)의 CODA 패키지 (Plummer 등, 2006)를 통해 계산되었으며 대부분의 모수에 ᄉ
ᅥ Geweke 통계량은 -2에서 2 사이의 값을가짐으로써 사후표본들의 수렴성을확인하였다. 회귀계수 벼
ᆯ 군집에 대한 추정치는각 지역별 군집에 속할 확률모수의 사후 평균 (posterior mean)값이 가장 큰 구
ᆫ집으로 정의하였다. 또한 나머지 모수에 대한 추정 역시 사후 평균을이용하였다.
3. 자료 분석
3.1. 자료 소개
2014년 지역사회건강조사, 질병관리본부 (https://chs.cdc.go.kr)를 통해 얻어진 전국 시군구 252개 지역의 당뇨병 유병률자료를이용하여 앞 절에서 소개된모형들을비교분석하고자 한다. 지역사 ᄒ
ᅬ 건강조사 자료는만 19세 이상의 성인을대상으로 전국시군구 보건소별로 900명의 표본을선정하여 ᄉ
ᅮ집되었으며, 본연구에서는 2014년 행정구역 정보를기반으로 일부 수정하여활용하였다. 대한 당뇨 벼
ᆼ 학회 (2015)에 따르면 당뇨병은다양한 합병증을 일으키는만성질환으로, 개인의 유전적 요인 및 행 ᄃ
ᅩ
ᆼ양식 외에도 지역적환경 및 사회적 요인에 따라 차이가 있다고 알려져 있다 (Jo 등, 2016).
ᄀ
ᅳ러나 지역적 특성이 사업 계획과 수행에 체계적으로 반영되지 못하고 있는 실정이며, 당뇨병 유병률 ᄋ
ᅴ 지역별 차이와 요인을체계적으로 분석한 연구는거의 없는 실정이다. 현재 시군구 단위를 중심으로 ᄉ
ᅮ행되는당뇨병관리 사업을고려했을 때, 지역마다 상이한 원인의 크기 정도를확인하여 정책적으로 ᄇ
ᅡᆫ영할 필요가 있다. 선행연구 (Kim 등, 2014)를검토하여 고려한 9개의 변수 중에 기초분석을 통해 유 ᄋ
ᅴ한 독립변수로확인된고혈압 유병률과 스트레스 인지율을가지고 당뇨병 발생에 미치는영향력의 차 ᄋ
ᅵ를 공간상관성 군집화를 통하여 분석하고자 한다.
Figure 3.1은지역별 당뇨병 유병률, 고혈압 유병률,스트레스 인지율을각 자료의 분위수를기준으로 ᄂ
ᅡ눈 지도이다. Figure 3.1 (a)에서 상대적으로 북부지역과 서쪽해안 지역에서 당뇨병 유병률이 높은 겨
ᆼ향을보임을확인할 수 있다. Figure 3.1 (b)는수도권과 강원, 충청의 북부지역이 호남 영남의 남부 ᄌ
ᅵ역보다 높은고혈압 유병률을보임을알 수 있다. Figure 3.1 (c)는스트레스 인지율로 수도권지역이 ᄀ
ᅳ 외 지역에 비하여 높은수치를 보임을확인할 수 있었다. 또한, 각 자료별 공간적 군집화 여부를 확 ᄋ
ᅵᆫ하기 위하여 local Moran’s I (Anselin, 1995)값을이용하여 Figure 3.2에 공간적 유사성이 있는지역 (회색)을나타내는 군집지도를제시하였다. 이를 통해 각 자료별 공간적 군집이 존재함을확인할 수 있 ᄋ
ᅳ며, 이는설명변수와 종속변수간의 연관성을나타내는회귀계수 역시 공간적 상관성을가지는 군집이 조
ᆫ재할 수 있다는근거이므로 2장에서 제시한 모형을 본자료에 적합하고자 한다.
(a) diabetes prevalence rates (b) hypertension prevalence rates (c) stress recognition rates Figure 3.1 Maps of prevalence rates
(a) cluster map of diabetes (b) cluster map of hypertension (c) cluster map of stress
Figure 3.2 Spatial cluster maps of prevalence rates
3.2. 분석 결과 보
ᆫ 연구에서는 2장에서 제안한 공간 상관성을 고려한 2가지 형태의 군집모형을 자료에 적합하였다.
ᄋ
ᅵ때, 각 회귀계수별 군집의 수를 2개에서 5개로 증가하면서 모형의 적합도 측면에서 비교하였다. 또 ᄒ
ᅡᆫ, 모형 적합도 측면에서 회귀계수에 대한 군집의 필요성을확인하기 위하여 회귀계수에 군집을 고려 ᄒ
ᅡ지 않은모형 역시 적합하여 비교하였다. 추가적으로 전국시군구의 전반적인 공간상관성을설명하는 ᄀ
ᅩ
ᆼ간 임의성분을각 모형에 고려하여 추가된 공간 임의성분에 따른모형의 성능차이를비교분석하였다.
ᄌ
ᅥᆫ국시군구 252개 지역 i(= 1, · · · , 252)에 대하여 yi는당뇨병 유병률, x1i는고혈압 유병률,그리고 x2i는스트레스 인지율을나타낸다. 그리고 yi의 정규분포 가정을위하여 로그변환을하여 분석을 진행 ᄒ
ᅡ였다.
log(yi) ∼ N (µi, σ2)
Model 1-1 선형 회귀모형 (µi= XXXTiβββ), Model 1-2 선형 공간모형 (µi= XXXTiβββ + vi),
Model 2-1 공간 임의성분없는 2군집 threshold car 모형 Model 2-2 공간 임의성분 있는 2군집 threshold car 모형
Model 3-1 공간 임의성분없는 2군집 multinomial spatial mixture 모형 Model 3-2 공간 임의성분 있는 2군집 multinomial spatial mixture 모형 ᄆ
ᅩ형 1-1을 적합한 후 잔차에 대한 공간 상관성 측도인 Moran’s I는 0.105 (p-value=0.004)로 공간 ᄉ
ᅡᆼ관성이 존재함을 확인할 수 있었다. 이는 공간 임의성분을 포함하는모형 1-2를고려하게 되는근거 ᄋ
ᅵ며, 공간 군집모형에서도 여전히 잔차에 공간 상관성이 존재할 수 있기 때문에 각 군집 모형에서 공간 이
ᆷ의성분을고려하는경우와 그렇지 않은경우 모두 자료에 적합하였다.
Table 3.1 Comparison results of the models in terms of DIC, MSPE, and PML
Model deviance p
DDIC MSPE PML
1-1 -305.8780 4.0060 -301.8773 0.8137 150.7312 1-2 -348.9461 31.4087 -317.5373 0.8137 158.3115 2-1 -398.6308 67.1771 -335.4537 0.5715 160.6342 2-2 -366.5160 42.2992 -314.2167 0.6925 136.1510 3-1 -491.6436 114.4223 -337.2213 0.2850 162.1489 3-2 -544.6729 122.6712 -442.0017 0.2070 178.0418
Table 3.1은베이지안 모형의 적합도 기준인 DIC (deviance information criterion; Spiegelhalter 등, 2002)와 모형의 예측력 기준인 MSPE (mean squared prediction error)와 PML (penalized marginal likelihood; Chen 등, 2000; Congdon, 2005) 측면에서 고려한 모형들을비교하였다. 편차 (deviance) D(θθθ) = −2logL(yyy|θθθ)의 사후 평균인 D(θ¯θθ)는모형의 적합도를 의미하며 모수의 사후 평균 ˆθθθ를이용한 pD = D(θθθ) − D(ˆθθθ)는모형의 복잡도를의미한다. DIC는 D(θθθ)와 pD의 두 합으로 정의되며 작을수록 ᄆ
ᅩ형의 적합이 잘된 것으로 판단한다.
DIC = D(θθθ) + pD.
MSPE는 실제값과 예측값의 오차 제곱의 평균을계산함으로써 그 값이 작을수록 좋은예측모형으로 펴
ᆼ가하며, yi는관측된값이고 ˆyi는사후 분포에서 얻어진 yi의 예측값이다.
M SP E = 1 n
n
X
i=1
(yi− ˆyi)2.
ᄇ
ᅦ이지안 예측측도로 사용되고 있는 PML은다음과 같이 정의된다.
P M L =
n
X
i=1
log(CP Oi),
ᄋ
ᅧ기서, CP Oi는 yi값을 제외한 모든 자료가 주어진 상황에서의 yi에 대한 주변 사후 예측 밀도값 (marginal posterior predictive density)으로 MCMC기법을 통해 다음과 같이 계산된다.
CP Oi= 1 K
K
X
k=1
1
p(yi|θθθ(k), X1i, X2i)
!−1 ,
ᄋ
ᅧ기서, K는 추정에 사용된 사후표본의 수로 본 연구에서는 7,000이며, 각 k번째 모수의 사후 표본 ᄋ
ᅳᆯ θθθ(k)이라고 한다. CPO는 cross-validation 측도로 사후표본을이용하여 한번에 손쉽게 계산이된다.
PML값이큰모형이 예측 측면에서 더 우월하다.
ᄇ
ᅦ이지안 선형 공간모형을 적합한 모형 1-2는 DIC 측면에서 베이지안 선형 회귀모형 1-1보다 더 낮 ᄋ
ᅳ
ᆫ값을보였다. 이는모형 1-1의 잔차에 공간상관성이 존재함을보여주는것과 더불어 본자료에 대하 ᄋ
ᅧ 공간모형을고려하는것이 적합함을 뒷받침해준다. 공간상관성을적용한 군집화 모형들이 전반적으 ᄅ
ᅩ 낮은 DIC와 MSPE를보이면서 군집화를 실시했을경우 모형의 적합도와 예측력 측면에서 더 나음 으
ᆯ확인할 수 있었다. 공간상관성 군집화 모형 중에서 가장 낮은 DIC와 MSPE값과 가장큰 PML값을 ᄀ
ᅡ진 2군집 multinomial spatial mixture 모형 3-2를최종모형으로 선택하였다.
ᄎ
ᅬ종모형으로 선택된모형 3-2의 모수 추정값은 Table 3.2와 같다. 회귀계수에 대한 모수 추정값을 ᄉ
ᅡ
ᆯ펴보면, 모든변수는당뇨병 유병률에 관하여 양의 상관관계를 보임을 확인할 수 있다. 군집간의 회 ᄀ
ᅱ계수 추정치를살펴보면, 전체적인 평균값의 회귀계수 β0는 1.3880과 1.3110으로근소한 차이를보이 ᄆ
ᅧ, 고혈압 유병률의 1군집과 2군집의 회귀계수 β1은 0.0292와 0.0250으로 큰차이가 없음을 알 수 있 ᄃ
ᅡ. 스트레스 인지율의 1군집과 2군집의 회귀계수는 0.0088과 0.0038로큰차이를보이지 않지만, 1군 지
ᆸ의 회귀계수는 통계적으로 유의한 반면 2군집의 회귀계수는 통계적으로 유의하지 않음을알 수 있다.
ᄋ
ᅵ는 2군집에 속하는지역에서는스트레스 인지율과 당뇨병 유병률간에 양의 상관성이 있다고 말하기는 ᄋ
ᅥ렵지만, 반면 1군집에 속하는지역에서는스트레스 인지율과 당뇨병 유병률간에 양의 상관성이 있다 ᄀ
ᅩ 이야기 할 수 있다.
ᄎ
ᅬ종모형 3-2의 회귀계수별 군집을 Figure 3.3에서 지도화 하였다. 남부지역에 비해 북부지역에서 높 ᄋ
ᅳ
ᆫ수치를보였던 고혈압 유병률의 경우, 회귀계수별 군집화 지도화 결과는수도권지역을포함하여 서 ᄒ
ᅢ안과 남부지역의 그룹이 상대적으로 그렇지 않은 지역보다 높은 회귀계수 수치를보였다. 스트레스 ᄋ
ᅵᆫ지율의 경우에는수도권과 비수도권지역의 그룹으로 분할되는 양상에서 수도권 지역을포함한 남부
Table 3.2 Parameter estimates in the best-fitted model (model 3-2)
parameter mean sd 2.5% median 97.5%
β
011.3880 0.0938 1.1990 1.3880 1.5690 β
021.3150 0.0928 1.1330 1.3150 1.4960 β
110.0292 0.0038 0.0217 0.0292 0.0370 β
120.0250 0.0041 0.0173 0.0249 0.0332 β
210.0088 0.0022 0.0043 0.0088 0.0131 β
220.0038 0.0025 -0.0009 0.0038 0.0087 σ
20.0073 0.0025 0.0031 0.0071 0.0122 σ
2v0.0037 0.0021 0.0008 0.0033 5.6980 σ
p0,120.3778 0.2317 0.0421 0.3481 2.2040 σ
p0,221.4310 0.3965 0.7426 1.4210 2.2390 σ
p1,121.4560 0.3966 0.7350 1.4510 2.5920 σ
p1,221.7430 0.3916 1.0620 1.7160 2.7940 σ
p2,122.0800 0.3457 1.4370 2.0760 2.7100 σ
p2,221.6010 0.5361 0.7094 1.5280 0.0088 σ
m0,123.5700 1.1450 1.3340 3.6300 2.9310 σ
m0,221.1060 0.7291 0.0964 0.9694 6.3030 σ
m1,122.1560 1.5090 0.4418 1.7240 5.6820 σ
m1,221.9100 1.4520 0.2008 1.4790 3.7070 σ
m2,121.5590 0.8730 0.3851 1.3890 6.0050 σ
m2,222.6710 1.3960 0.6022 2.4480 0.8676
이
ᆯ부지역에서는스트레스 인지율이 통계적으로 유의하였으며 그렇지 않은지역에서는스트레스 인지율 ᄋ
ᅵ 통계적으로 유의하지 않은그룹임을확인할 수 있었다. 이처럼 설명변수가 가진 지역적인 분포와 달 ᄅ
ᅵ, 종속변수에 대한 영향력은그 분포가 다를수 있으며 크기 또한 다를수 있음을확인하였다.
(a) clusters of ˆ β
0(b) clusters of ˆ β
1(c) clusters of ˆ β
2Figure 3.3 Estimated spatial cluster maps of the regression coefficients in model 3-2
ᄎ
ᅮ가분석으로 회귀계수마다 군집의 개수를 5개까지 확장하면서 민감도 분석을 실시하였다. Figure 3.4에서 보여지듯이 모형별로 일정하지는않지만 군집의 수가 늘어날수록 DIC와 MSPE의 수치가 현저 ᄒ
ᅵ 작아짐을확인할 수 있다. 특히, multinomial spatial mixture 모형을 적용한 모형 3-2의 5개 군집 ᄇ
ᅡᆼ법이 DIC가 -677.1631, MSPE가 0.0298로 가장 우수한 결과값을보였다.
5개 군집을가진 모형 3-2의 군집화된 결과를보면 Table 3.3과 같이 각 군집에 속하는지역수가 0인 겨
ᆼ우가 일부 군집에서 나타나면서, 실질적으로 나눠지는 군집의 수는 3개 정도로 나타났다. 이 결과는 ᄀ
ᅳ룹의 개수가 많아지는것이 모형에 잘 적합되는것처럼 보이지만, 실제로는 필요 이상의 군집으로 나
(a) DIC (b) MSPE Figure 3.4 Comparison results in terms of DIC and MSPE up to 5 groups
ᄂ
ᅱ는결과를가져올수 있음을확인하였다. 또한 3군집의 결과와 비교했을때 오히려 모형의 성능은감 ᄉ
ᅩ한 결과를보였으며, 회귀계수 추정치를살펴봤을때 2개 정도의 군집은비슷한 추정치를보이면서 실 ᄌ
ᅦ적으로는처음에 고려하였던 2군집과큰차이가 없음을확인할 수 있었다.
ᄆ
ᅩ형 3-2에서 분산모수에 대한 사전분포를 균일분포가 아닌 역감마분포 (inverse gamma distri- bution)을 고려하여 모형의 적합도와 회귀계수의 추정치를 비교하였다. 분산에 대한 사전분포로 IG(0.001,0.001)를고려하여 자료를적합한 경우, DIC=-325.073 (deviance=-412.00), MSPE=0.7201, ᄀ
ᅳ리고 PML=156.573이며, 이는 모형의 적합도 측면에서 역감마분포보다는 균일본포가 더 우월함을 ᄋ
ᅡ
ᆯ 수 있다. 이에 반해, 회귀계수에 대한 추정치는 균일분포를고려한 모형이나 역감마분포를고려한 모 혀
ᆼ이나 통계적으로 유의한 차이가 없음을확인하였다.
Table 3.3 The number of grouping for each coefficient in model 3-2 with 5 groups parameter group 1 group 2 group 3 group 4 group 5
β
03 64 153 32 0
β
10 24 144 79 5
β
20 23 151 70 7
4. 결론 보
ᆫ 논문에서는베이지안 계층적 모형에서 회귀계수의 공간상관성을고려한 이산 군집화 방법을이용 ᄒ
ᅡ여 국내 당뇨병 유병률자료를처음으로 공간모형에 적합시키고 나아가 공간상관성 군집화 방법을적 ᄋ
ᅭ
ᆼ한 결과를비교하였다. 분석결과 2개로 군집화를하였을때, 적합도와 예측력 측면에서 multinomial spatial mixture모형이 우수한 결과를 나타내었다. 회귀계수의 모수 추정값은큰차이를보이지 않았 ᄌ
ᅵ만 회귀계수별로 군집화 지도를 통하여 지역적 양상이 다름을확인하였다. 5개의 군집까지 민감도 분 ᄉ
ᅥ
ᆨ을 실시한 결과 적합도와 예측력 측면이 현저히 좋아졌지만, 모수 추정치와 군집별 지역의 수를 분석 ᄒ
ᅡᆫ 결과 2군집의 결과와큰차이가 없음을알 수 있었다.
ᄇ
ᅩᆫ연구에 제시된 군집화 방법 외에도 공간상관성을고려한 다양한 사전분포의 가정을 통한 모형의 적 ᄒ
ᅡᆸ과 군집화에 맞는회귀계수를선택하여 선별적 군집화를 실시한 연구가 필요할 것으로 생각된다. 또 ᄒ
ᅡᆫ, 선별된 회귀계수별로 각기 알맞은 군집의 수를 선택하여 모델에 적용함으로써 최적의 모형을 탐색 ᄒ
ᅡ는연구가 추후 필요하다. 본연구에서는 2014년 지역사회 건강조사 자료만을이용한 분석을 진행하
ᄋ
ᅧᆻ다. 하지만 최근 2015년과 2016년 자료를 이용하여 회귀계수 군집화 결과를 비교하고, 2008년부터 2016년까지의 지역사회 건강조사 자료에 대한 시공간 상관성을고려한 회귀계수 군집화의 시간적 변동 ᄋ
ᅦ관해 추후 연구가 필요하다. 따라서, 향후 다양한 자료의 적합을 통하여 군집화 방법에 대한 연구가 피
ᆯ요할 것으로 사료된다.
References
Anselin, L. (1995). Local indicators of spatial association. Geographical Analysis, 27, 93-115.
Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems (with discussion). Journal of the Royal Statistical Society B , 36, 192-236.
Brook, D. (1964). On the distinction between the conditional probability and the joint probability ap- proaches in the specification of nearest-neighbour systems. Biometrika, 51, 481-483.
Casella, G. and Robert, C. P. (2004). Mixture models, latent variables and partitioned importance sampling.
Statistical Methodology, 1, 1-18.
Chen, M., Shao, Q. and Ibrahim, J. (2000). Monte Carlo methods in Bayesian computation, Springer Verlag, New York.
Choi, J. (2016). Bayesian spatial analysis of obesity proportion data. Journal of the Korean Data &
Information Science Society, 27, 1203-1214.
Choi, J., Lawson, A. B., Cai, B. and Hossain, M. M. (2011). Evaluation of Bayesian spatial-temporal latent models in small area health data. Environmetrics, 22, 1008-1022.
Clifford, P. (1990). Markov random fields in statistics, Oxford University Press, Oxford.
Congdon, P. (2005). Bayesian models for categorical data, John Wiley and Sons, New York.
Fotheringham, A. S., Brunsdon, C. and Charlton, M. (2002). Geographically weighted regression: The analysis of spatially varying relationships, Wiley, New York.
Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1, 515-533.
Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches to the caculation of posterior moments, in Bayesian statistics, Bernardo, J. M., Berger, J., Dawid, A. P. and Smith, A. F. M., Oxford University Press, Oxford.
Jasra, A., Holmes, C. C. and Stephens, D. A. (2005). Markov chain Monte Carlo methods and the label switching problem in Bayesian mixture modeling. Statistical Science, 20, 50-67.
Jo, E. K., Seo, E.W. and Lee, K. S. (2016). Spatial distribution of diabetes prevalence rates and its relationship with the regional characteristics. Health Policy and Management , 26, 30-38.
Kim, B. and Lim, C. Y. (2016). Modeling pediatric tumor risks in Florida with conditional autoregressive structures and identifying hot-spots. Journal of the Korean Data & Information Science Society, 27, 1225-1239.
Kim, Y. M., Cho, D. G. and Kang, S. H. (2014). An empirical analysis on geographic variations in the prevalence of diabetes. Health and Social Welfare Review , 34, 82-105.
Ko, Y., Han, J., Yoon, T., Kim, C. and Noh, M. (2016). Cancer incidence and mortality estimation in Busan by using spatial multi-level model. Journal of the Korean Data & Information Science Society, 27, 1167-1182.
Korean Diabetes Association. (2015). Korean diabetes fact sheet 2015, Avaiable from http://www.
diabetes.or.kr
Lawson, A. B., Choi, J. and Zhang, J. (2014). Prior choice in discrete latent modeling of spatially referenced cancer survival. Statistical Methods in Medical Research, 23, 183-200.
Park, J., Kim, C. and Han, J. (2016). Spatio-temporal analysis of tuberculosis mortality estimations in Korea. Journal of the Korean Data & Information Science Society, 27, 1183-1191.
Plummer, M., Best, N. G., Cowles, K. and Vines, K. (2006). coda: Convergence diagnosis and output analysis for MCMC. R News, 6, 7-11.
Richardson, S., Abellan, J. J. and Best, N. (2006). Bayesian spatio-temporal analysis of joint patterns of male and female lung cancer risks in Yorkshire (UK). Statistical Methods in Medical Research, 15, 385-407.
Spiegelhalter, D. J., Best, N., Carlin, B. P. and van der Linde, A. (2002). Bayesian measures of model
complexity and fit (with discussion). Journal of the Royal Statistical Society B , 64, 583-639.
2018, 29
(3)
,633–644
Analysis of domestic diabetes prevalence data using Bayesian spatially-dependent clustering models in
regression coefficients †
Sojin Hong
1
· Dayun Kang2
· Jungsoon Choi3
12Department of Applied Statistics, Hanyang University
3Department of Mathematics, Hanyang University
Received 20 September 2017, revised 4 May 2018, accepted 14 May 2018
Abstract
In spatial regression modeling, it is commonly assumed that spatial random compo- nents are considered to explain the spatial dependency structures and regression coeffi- cient is constant over the entire spatial domain. However, the regression coefficient may have spatial dependency structures and be different depending on the sub-regions. Re- cently, Lawson et al. (2014) proposed Bayesian discrete clustering methods of spatially dependent regression coefficients and applied them to cancer survival dataset. Bayesian hierarchical approach was utilized to explain the complicated spatial dependent struc- tures. In this paper, we first analyze the diabetes prevalence data for the entire 252 administrative districts of South Korea in 2014 year using spatially-dependent regres- sion coefficient clustering models. We evaluate the performance of the proposed spatial models with the non-spatial model.
Keywords: Bayesian inference, CHS, clustering, diabetes prevalence rates data, spatial model.
†
This work was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Science, ICT & Future Planning (NRF- 2015R1C1A1A02037495).
1
Graduate student, Department of Applied Statistic, Hanyang University, 222, Wangsimni-ro, Seong- donggu, Seoul, 04763, Korea.
2
Ph D. student, Department of Applied Statistic, Hanyang University, 222, Wangsimni-ro, Seongdonggu, Seoul, 04763, Korea.
3