2020, 31
(6)
,1089–1107
허들 및 영과잉 회귀모형의 베이지안 변화점 식별 모형 : 과학화 전투훈련의 전투단계 변화 분석 †
기
ᆷ기성
1
·최태련2
12
고려대학교 통계학과ᄌ ᅥ
ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 25ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄒ ᅥᄃ ᅳ ᆯ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅢᄉ ᅥ ᄀ ᅩᄎ ᅡ ᆯᄒ ᅡ ᆫᄃ ᅡ.
ᄒ
ᅥᄃ ᅳ ᆯ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄋ ᅵᄉ ᅡ ᆫᄒ ᅧ ᆼ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪ ᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ, ᄒ ᅥᄃ ᅳ ᆯ ᄒ
ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄀ ᅪ ᄋ ᅧ ᆼᄋ ᅵ ᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄃ ᅬ ᆫ ᄋ ᅵᄉ ᅡ ᆫᄒ ᅧ ᆼ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸ, ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄀ ᅪ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ
ᅵᄉ ᅡ ᆫᄒ ᅧ ᆼ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸᄋ ᅳᄅ ᅩ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄋ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪ ᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄇ ᅡᄐ ᅡ ᆼᄋ ᅳᄅ ᅩ ᄒ ᅡᄋ ᅧ Chib (1998)ᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ ᄀ ᅵᄇ ᅡ ᆫᄒ ᅡ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄉ ᅵ ᆨᄇ ᅧ ᆯᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦ ᄋ
ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄋ ᅧ ᆫᄀ ᅮᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄉ ᅥ ᆫᄐ ᅢ ᆨᄀ ᅵᄌ ᅮ ᆫ ᄋ ᅳᄅ ᅩ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄒ ᅡᄀ ᅩ, ᄇ ᅧ ᆫ ᄒ
ᅪᄌ ᅥ ᆷᄋ ᅴ ᄉ ᅮᄋ ᅪ ᄋ ᅱᄎ ᅵᄋ ᅦ ᄃ ᅢᄒ ᅢᄉ ᅥ ᄎ ᅮᄅ ᅩ ᆫ ᄒ ᅡ ᆫᄃ ᅡ. ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄀ ᅥ ᆷᄌ ᅳ ᆼ ᄒ ᅡᄀ ᅩ, ᄀ ᅪᄒ ᅡ ᆨᄒ ᅪ ᄌ ᅥ ᆫᄐ ᅮᄒ ᅮ ᆫᄅ ᅧ ᆫ ᄌ
ᅡᄅ ᅭᄋ ᅦ ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥ ᄋ ᅧ ᆫᄀ ᅮᄒ ᅡ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅪᄒ ᅡ ᆨᄒ ᅪ ᄌ ᅥ ᆫᄐ ᅮᄒ ᅮ ᆫᄅ ᅧ ᆫᄋ ᅴ ᄌ ᅥ ᆫᄐ ᅮᄃ ᅡ ᆫᄀ ᅨ ᄇ ᅧ ᆫᄒ ᅪ ᄋ
ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ ᅵ ᆯᄌ ᅳ ᆼᄌ ᅥ ᆨ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄉ ᅮᄒ ᅢ ᆼᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅪᄒ ᅡ ᆨᄒ ᅪ ᄌ ᅥ ᆫᄐ ᅮᄒ ᅮ ᆫᄅ ᅧ ᆫ, ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ, ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄆ ᅩᄒ ᅧ ᆼ, ᄒ ᅥᄃ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼ, BIC.
1. 서론 후
ᆫ련에서의 땀 한방울은전투에서의 피 한방울이라는격언이 있듯이, 교육훈련은 군부대의 전투력 발 ᄒ
ᅱ에서 가장 중요한 요소이다. 순항미사일이 정확하게 목표 건물의 창문을명중시키는장면이 전 세계 ᄅ
ᅩ 보도되어 첨단 무기를사용한 현대전의 효시로 알려진 걸프전에서도 미 육군 관계자는 국립훈련센 ᄐ
ᅥ에서 준비한대로 싸워 승리하였으며, 실제 전투가 국립훈련센터의 훈련보다 쉬웠다고 증언하였을 만 크
ᆷ교육훈련의 중요성은자명하다. 한국군은교육훈련 여건 보장을위해서 미군의 국립훈련센터에 대응 ᄒ
ᅡ는 훈련장의 소요를 1980년대에 제기하여 2002년 과학화 전투훈련단 (Korea combat training cen- ter; KCTC; https://www.kctc.mil.kr:452/)을창설하였다. 과학화 전투훈련단은 2003년부터 중대 ᄀ
ᅳ
ᆸ전투훈련, 2005년 대대급전투훈련을지원하였고, 2018년부터는여단급 훈련을지원하고 있다. 과학 ᄒ
ᅪ 전투훈련은부대가 실제 보유하고 있는무기와 장비를사용하여 실시간으로 대항군과 훈련을 진행하 느
ᆫ 실전과 가장 유사한 훈련이다.
ᄎ
ᅬ근과학화 전투훈련에 대하여 통계적 분석과 연구가 이루어져왔으며, 부대의 교육훈련과 전투력 향 ᄉ
ᅡᆼ에 의미 있는결과를제공한다. 예를들어 Kim과 Kim (2014)은 공격작전에 영향을미치는 8개의 변
† ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄋ ᅦ ᄋ ᅴᄒ ᅡᄋ ᅧ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ (K2009431).
1 (02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
2 ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ : (02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄉ
ᅮ를선별하고 다중회귀분석으로 분석하였다. Kim 등 (2015)은생존나무 모형을적용하여 전술제대의 ᄀ
ᅩᆼ격작전간 전투원의 생존에 미치는영향을 분석하였다. Kim 등 (2016)은시간 종속변수인 생존자료 ᄋ
ᅪ 경시적 자료를결합하여 전투원의 생존성에 대한 분석을하였다. Kim 등 (2017)은과학화 전투훈련 ᄌ
ᅡ료의 반응변수의 특성을반영하여 영과잉 및 허들회귀모형을이용하여 전투원이 적을전투불능상태 ᄅ
ᅩ 만드는데 영향을미치는요소를 분석하였다.
ᄇ
ᅩᆫ연구에서는과학화 전투훈련 자료의 특성을고려하여 허들 및 영과잉 회귀모형의 베이지안 변화점 시
ᆨ별 모형을 제안하고, 구조적인 영을 가지는 과학화 전투훈련 자료에서 전투단계의 변화를 분석한다.
ᄀ
ᅮ조적인 영의 적합을위해서 허들모형 혹은영과잉 모형을사용한다. Mullahy (1986)에 의해 허들모 혀
ᆼ, Singh (1963)에 의해 영과잉 포아송모형이 소개된이후로 구조적인 영을가지는 자료를 분석하는 ᄇ
ᅡᆼ법에 대해서 많은연구가 이루어졌다. Lambert (1992)는 공변량의 효과를고려한 영과잉 포아송 회 ᄀ
ᅱ모형, Greene (1994)은평균과 분산이 동일하다는포아송 분포의 가정의 한계를극복한 영과잉 음이 ᄒ
ᅡᆼ 회귀모형을제안하였다. Pillow와 Scott (2012)는 Polya-gamma 분포를이용한 음이항 회귀모형의 ᄀ
ᅵᆸ스 표집기를 제안하였으며, Polson 등 (2013)은 Polya-gamma 분포를 이용한 로지스틱 회귀모형의 ᄀ
ᅵᆸ스 표집기를제안하였다. Neelon (2019)은앞의 두 방법을결합한 영과잉 음이항 회귀모형의 깁스 표 지
ᆸ기를 랜덤효과, 시공간 자료에 적용할 수 있도록확장하였다.
ᄇ
ᅧᆫ화점을 식별하기 위한 베이지안 변화점 식별의 기본적인 모형은 Chernoff와 Zacks (1964)의 변화 ᄌ
ᅥᆷ 식별을 위한 베이지안 방법이다. Carlin 등 (1992)은 한 개의 변화점이 존재하는 경우 마코프 체 ᄋ
ᅵᆫ 몬테 카를로 방법으로 변화점의 위치를 추론하는 방법을 제안하고, Stephens (1994)는 Carlin 등 (1992)의 연구를변화점이 다수 존재하는경우로확장하였다. Chib (1998)은변화점이 존재할확률을 ᄌ
ᅥᆫ이확률을이용한 마코프 체인 몬테 카를로 방법으로 추론하였다. Koop과 Potter (2007)는포아송계 ᄎ
ᅳ
ᆼ사전분포를 이용하여 변화점의 수와 위치를추론하고, Ko 등 (2015)은 은닉 마코프 모형에 디리슐 ᄅ
ᅦ 과정을적용하여 변화점의 수와 위치를추론할 수 있는방법을제안하였다. 변화점 모형은다양한 분 ᄋ
ᅣ에서활용이 되었으며, Kang과 Kang (2019)은최대가능도 추정과 CUSUM 관리도를이용하여 국내 ᄋ
ᅴ 원자력 발전소 사고 및 고장 건수의 변화점의 위치를추정하고, Kim과 Lee (2020)는고령 운전자에 ᄃ
ᅢ한 교통사고 발생건수의 변화점 탐지에 최대가능도추정량에 기반한 CUSUM관리도 검정을적용하였 ᄃ
ᅡ.
ᄋ
ᅵ러한 구조적인 영을가지는자료를 분석하는모형과 변화점 식별에 대한 각 분야에서 이루어지는다 ᄋ
ᅣᆼ한 연구에도 불구하고 구조적인 영을가지고 있는자료에 대한 변화점을추정하는방법에 대한 연구는 ᄆ
ᅡ
ᆭ이 이루어지지 않았다. Kim (1998, 1998)은 가능도비 검정을 이용하여 영과잉 포아송 모형의 특정 ᄉ
ᅵ점에 변화점 존재 여부를 검정하는방법을 제안하였다. 기존의 연구는단일 변화점이 특정 시점에서 ᄇ
ᅡᆯ생한다는가정하에 변화점의 존재 여부를검정한 것으로 변화점의 수가 다수인 경우 적용하기 어려운 ᄒ
ᅡᆫ계를가진다. 이에, 본 논문에서는구조적인 영을가지는자료에 다수의 변화점이 존재하는경우 사용 ᄒ
ᅡᆯ 수 있는베이지안 모형을제안하고자 한다. 구체적으로 허들회귀모형 및 영과잉 회귀모형을바탕으 ᄅ
ᅩ Chib (1998)의 변화점 식별방법을적용하여 변화점을 식별하고, 변화점의 수가 알려지지 않은경우 ᄋ
ᅦ는 Bauwens와 Rombouts (2012)에서 적용한 로그 주변 가능도 (log marginal likelihood; log ML)와 BIC (Bayesian information criterion)를모형선택 기준으로 이용하여 적절한 모형을선택하여 변화점 ᄋ
ᅴ 수를추정한다.
ᄋ
ᅵ를 위한, 본 논문의 구성은다음과 같다. 2절에서는 본 논문이 제안하는 구조적인 영이 존재하는 ᄌ
ᅡ료에 대한 변화점을 추정하는 베이지안 모형으로 허들회귀모형, 영과잉 회귀모형을바탕으로 Chib (1998)의 변화점 식별 모형을적용한 방법에 대해서 설명한다. 3절에서는모의실험을 통하여 모형선택 ᄀ
ᅵ준이 변화점의 수와 위치를적절하게 식별하고, 각 상태별 모수에 대한 추정이 잘 이루어지는지 검증 ᄒ
ᅡᆫ다. 실제 자료분석은과학화 전투훈련 자료를 제안한 모형으로 적합하여 전투단계의 변화점의 수와
ᄋ
ᅱ치를 식별하고, 실증적으로 분석한다. 마지막으로 4절 결론에서는 본 논문을정리하고 향후 연구 방 ᄒ
ᅣᆼ에 대하여 논의한다.
2. 구조적인 영을 가진 자료의 변화점 식별
2.1. 변화점 식별 과
ᆫ측된자료의 어느 특정 지점에서 변화가 발생하여 기존의 구조와는다른새로운구조를따르는 경 ᄋ
ᅮ 변화가 발생하는 지점을 변화점이라고 한다. Chib (1998)은 변화점의 수가 알려진 경우 이산시간 ᄆ
ᅡ코프 과정과 주변 가능도를 이용하여 변화점을 식별하는 방법을 제안하였다. 관측된 자료 Y
n
= (y1
, y2
, . . . , yn
)에 m개의 변화점 Υ = {τ1
, . . . , τm
}, τ1
> 1, τm
≤ n이 존재한다면 m + 1개의 상태 에 따라서 별도의 모수를가지게된다. 상태가 변할확률은아래의 전이행렬 P 로 표현되며, 전이행렬의 ᄀ
ᅡ
ᆨ 원소 p
ij
= P (st
= j|st−1
= i)는 t − 1시점에서 t시점으로 시간이 변화하면서 상태가 i상태에서 j상 태로 전이할확률이다. 상태의 초기값은 t = 1시점에서 s
t
= 1이고, 변화점의 수가 m개 일 때 마지막 시점인 t = n에서는 m + 1상태에 속하게된다. k번째 변화점 τ
k
는 sτ k −1
= k, sτ k
= k + 1인 경우 발 생한다.
P =
p
11
p12
0 . . . 0 0 p22
p23
. . . 0..
. ... ... . .. ... ..
. ... 0 p
mm
pm,m+1
0 0 . . . 0 1
.
ᄌ
ᅥᆫ이행렬을 살펴보면, 각 상태는 1단계씩 전이가 가능하며, t 시점에서 상태 k에 속할확률 p(s
t
= k)는 t − 1시점에서 t 시점으로 진행하면서 상태 k − 1에서 k로 전이할확률과 t − 1 시점에서 상태 k에 잔류할확률의 합으로 다음과 같다.
p(s
t
= k|Yt
, Θ, P ) = p(st
= k|Yt−1
, Θ, P )f (yt
|Yt−1
, θk
) Pk
l=k−1
p(st
= l|Yt−1
, Θ, P )f (yt
|Yt−1
, θl
). (2.1) 수식 (2.1)을연쇄적으로 계산하여 각 상태에 속할확률을계산할 수 있다.
ᄌ
ᅥᆫ이행렬 P 의 표집 과정은다음과 같다. 관측값 Y
n
과 모수 Θ, 상태 Sn
이 주어진 경우 P 의 사후분 포 P |Y
n
, Sn
, Θ는 Sn
이 주어진 경우 (Yn
, Θ)와 독립이다. 그러므로 전이행렬 P 의 원소 pii
는 P |Sn
에 서 다음과 같은과정으로 표집할 수 있다.
p
ii
의 사전분포가 다음과 같은베타분포라고 가정하자.p
ii
∼ Beta(a, b).p
ii
의 값이 주어진 경우 i상태에서 i + 1 상태로 전이가 발생하면 i상태로 다시 돌아갈 수 없으므로 nii
번 의 i상태의 잔류 이후 마지막으로 i + 1상태로의 전이가 발생하게된다. 즉,가능도는 p
n ii ii
(1 − pii
)가된 다. 사전분포와 가능도를이용하여 사후분포를계산하면 다음의 베타분포가된다.
p(p
ii
|nii
) ∼ Beta(a + nii
, b + 1).p
i,i+1
= 1 − pii
이므로, i = 1, . . . , m에 대해서 pii
의 사후분포 표본을표집하면 전이행렬 P 의 모든 원 소의 값을알 수 있다.
2.2. 구조적인 영을 가지는 이산형 자료의 분석 ᄀ
ᅮ조적인 영을 가지는 이산형 자료의 분석에서 구조적인 영을 표현하기 위해서 다양한 혼합모형이 ᄌ
ᅦ안되었다. 혼합모형중에서 대표적인 방법으로 Mullahy (1986)에 의해 소개된 허들 모형과 Singh (1963)이 제안한 영과잉 모형 두 가지가 있다. 허들 모형은 점질량을 가지는 영과 영이 절단된 포아 ᄉ
ᅩ
ᆼ회귀분석 혹은 음이항 회귀분석의 혼합모형으로 구성되어 있다. 허들모형에서 구조적인 영의 발생 화
ᆨ률이 기본적인 이산형 모형에서의 영의 발생확률보다큰경우 영을과도하게 많이 가지는 자료로 볼 ᄉ
ᅮ 있으며, 반대의 경우 영을 과소하게 가지는자료로 볼수 있다. 영과잉 모형은영의 발생 원인을 구 ᄌ
ᅩ적인 영과 이산형 분포에서 무작위로 발생하는영으로 구분하며, 영이 과도하게 많이 가지는경우만을 ᄀ
ᅡ정한다. 본 논문에서는구조적인 영을가지는이산형 자료의 분석을위해서 허들포아송회귀모형, 허 ᄃ
ᅳ
ᆯ 음이항 회귀모형, 영과잉 포아송회귀모형, 영과잉 음이항 회귀모형을적용한다.
ᄌ
ᅡ료가 가지고 있는구조적인 영의 적합을위해서 Polson 등 (2013)이 제안한 Polya-gamma 분포를 ᄋ
ᅵ용한 로지스틱 회귀분석의 모수를표집하는방법을적용한다. 반응변수 Y
n
이 구조적인 영을가지는 이산형 자료인 경우 Y
n
의 분포를영이 발생하는점 확률질량과 이산모형의 혼합으로 표현할 수 있다.ᄀ
ᅮ조적인 영을가질확률은 1 − p
i
이며, 공변량 Xij
는 i관측값의 j번째 공변량이며, 공변량의 수가 l일 때, p
i
는다음과 같이 정의한다.log
p
i
1 − p
i
= α
s i 0
+ αs i 1
Xi1
+ αs i 2
Xi2
+ · · · + αs i l
Xil
. 구조적인 영을 가지지 않을 확률인 p
i
는 상태 si
일때, 모수 αs i
를 가지는 로지스틱 분포를 따른다.Polson 등 (2013)은 Polya-gamma 분포를이용하여 로지스틱 회귀분석의 모수를추정하는방법을제안 ᄒ
ᅡ였다. 확률변수 ω가 P G(b, c) 분포를따르면 ω의확률밀도 함수는 b > 0, c ∈ R일 때, 다음과 같다.
ω ∼ P G(b, c)=
d
1 2π2
∞
X
k=1
g
k
(k − 1/2)
2
+ c2
/ (4π2
). 여기서 g
k
는 독립적인 Gamma(b, 1)의 분포를따른다.η
1i
= Xi T
α일 때, ω1i
∼ P G(1, η1i
)이고, κ1i
= (zi
− 1/2)/ω1i
이다. 여기서 zi
는구조적인 영의 발 생 여부에 대한 지시변수로 z
i
= 0은 구조적인 영이 발생한 것을의미한다. 그러므로 yi
> 0인 경우 zi
= 1, yi
= 0인 경우 허들모형은 zi
= 0, 영과잉 모형은 psz
/(psz
+ pdz
)의확률로 0의 값을가진다. 여 기서 p
sz
는구조적인 영이 발생할확률, pdz
는이산형 모형에서 자연스럽게 영이 발생할확률이다. α의 가
ᆹ은다음과 같이 표집한다.
α ∼ N (µ
α
, Σα
), Σα
=
Σ
−1 α0
+ XT
Ω1
X−1
, µ
α
= Σα
Σ
−1 α0
α0
+ XT
Ω1
κ1
, ᄋ
ᅧ기서 Ω
1
= diag(ω1
)이고, α0
, Σα0
은 α의 사전분포에 대한 초모수이다. 구조적인 영을제외한 이산형 영과잉 자료의 적합 방법은각 모형별로 아래에 이어서 설명하기로 한다.
2.2.1. 허들 포아송 회귀모형 ᄒ
ᅥ들포아송회귀모형 (HPCP)은 Y
n
의 분포를영이 발생하는점확률질량과 영이 절단된포아송회 귀분석의 혼합으로 표현한다. 1 − p
i
의확률로 영의 값을가지는 Yi
는다음과 같은확률질량함수를 가ᄌ ᅵᆫ다.
P (Y
i
= yi
|λi
, pi
) =
1 − p
i
, if yi
= 0, pi
e −λi λ yi i
y i !(1−e −λ )
, if yi
> 0, 여기서 공변량의 수가 l일때, λ
i
는다음과 같이 정의한다.log(λ
i
) = βs i 0
+ βs i 1
Xi1
+ βs i 2
Xi2
+ · · · + βs i l
Xil
. 영이 절단된포아송회귀분석의 모수 λ = exp(X
T
β)를추정하기 위해서는영이 아닌관측값 y†
와 해 당하는 공변량 X
†
를이용하여 다음과 같이 MH 알고리즘을적용하여 사후표본을표집한다.• 제안분포에서 β
∗
를표집한다.• 제안분포에 의해서 q(β|β
∗
), q(β∗
|β)를계산한다.• 아래의 영이 절단된포아송 분포의 가능도에서 π(β), π(β
∗
)를계산한다.π(β) =
n †
Y
i=1
exp(X
i †
β)y † i
exp(− exp(Xi †
β)) yi †
!(1 − exp(− exp(Xi †
β)))! .
• 채택확률 p(β
∗
|β) = minhπ(β ∗ )q(β|β ∗ ) π(β)q(β ∗ )
, 1i ᄋ
ᅦ 의해서 β
∗
를선택하거나 β를유지한다.2.2.2. 허들 음이항 회귀모형 ᄒ
ᅥ들포아송회귀모형의 경우 구조적인 영을제외한 이산모형에서 평균과 분산이 동일하다는가정을 ᄀ
ᅡ지고 있다. 그러나 자료가 이러한 가정을만족하지 않는경우에는허들 음이항 회귀모형 (HNBCP)을 ᄌ
ᅥ
ᆨ용한다. Blackwell (2018)에 의하면 변화점을결정하는방법보다 변화점 내에서 올바른모형을결정 ᄒ
ᅡ는것이 더 중요하므로 포아송회귀모형의 가정을만족하지 않는경우 반드시 음이항 회귀모형을적용 ᄒ
ᅢ야 한다.
ᄒ
ᅥ들 음이항 회귀모형은 Y
n
의 분포를구조적으로 영이 발생하는점확률질량과 영이 절단된 음이항 회귀분석의 혼합으로 표현한다. 1 − p
i
의확률로 영의 값을가지는 Yi
는다음의확률질량함수를가진다.P (Y
i
= yi
|λi
, qi
) =
1 − p
i
, if yi
= 0, pi Γ(y i +r)
Γ(r)y i !
ϕ yi i (1−ϕ i ) r
1−(1−ϕ i ) r
, if yi
> 0, 여기서 공변량의 수가 l일때, ϕ
i
는다음과 같이 정의한다.log
ϕ
i
1 − ϕ
i
= β
s i 0
+ βs i 1
Xi1
+ βs i 2
Xi2
+ · · · + βs i l
Xil
. 으
ᆷ이항 회귀분석의 모수인 ϕ = exp(X
T
β)/(1 + exp(XT
β))의 표집을위해서 영이 아닌관측값 y†
와 해당하는 공변량 X
†
를이용하여 다음과 같이 MH 알고리즘을적용하여 사후표본을표집한다.• 제안분포에서 β
∗
를표집한다.• 제안분포에 의해서 q(β|β
∗
), q(β∗
|β)를계산한다.• 아래의 영이 절단된 음이항 분포의 가능도에서 π(β|r), π(β
∗
|r)를계산한다.π(β, r) =
n †
Y
i=1
Γ(y
† i
+ r) yi †
!Γ(r)! exp(X
i †T
β) 1 + exp(Xi †T
β)!
y † i
× 1
1 + exp(X
i †T
β)!
r
1 − 1 1 + exp(X
i †T
β)!
r
!• 채택확률 p(β
∗
|β) = minhπ(β ∗ )q(β|β ∗ ) π(β)q(β ∗ )
, 1iᄋ
ᅦ 의해서 β
∗
를선택하거나 β를유지한다.ᄆ
ᅩ수 r의 표집을위해서 영이 아닌관측값 y
†
와 해당하는 공변량 X†
를이용하여 β와 동일한 방법으 로 MH 알고리즘을적용하여 사후표본을표집한다.
• 제안분포에서 r
∗
를표집한다.• 제안분포에 의해서 q(r|r
∗
), q(r∗
|r)를계산한다.• β의 표집에 사용한 영이 절단된 음이항 분포의 가능도에서 π(r|β), π(r
∗
|β)를계산한다.• 채택확률 p(r
∗
|r) = minhπ(r ∗ )q(r|r ∗ ) π(r)q(r ∗ )
, 1iᄋ
ᅦ 의해서 r
∗
를선택하거나 r를유지한다.2.2.3. 영과잉 포아송 회귀모형 여
ᆼ과잉 포아송 회귀모형 (ZIPCP)은 Y
n
의 분포를구조적으로 영이 발생하는 점확률질량과 일반적 인 포아송회귀분석의 혼합인 영과잉 포아송회귀모형으로 표현한다. 1 − p
i
의확률로 구조적인 영을가 지는 Y
i
는다음과 같은확률질량함수를가진다.P (Y
i
= yi
|λi
, qi
) =
(1 − p
i
) + pi
e−λ i
, if yi
= 0, pi
e −λi λ yi i
y i !
, if yi
> 0.ᄑ
ᅩ아송 회귀분석의 모수 λ = exp(X
T
β)를 추정하기 위해서 zi
= 1인 구조적인 영이 아닌 관측값 에 해당하는 반응변수 Y
†
와 공변량 X†
만을 이용하여 추정한다. 모수의 추정을 위해서 Fr¨uhwirth- Schnatter 등 (2009)의 보조변수를 이용한 깁스 표집 방법을 적용하였다. log(λi
) = Xi T
β이며, Fr¨uhwirth-Schnatter와 Wagner (2006)에 소개된 가중치 wk
(·)를 이용하여 ˜X = wk
(·)X라고 정의 하고, β는다음과 같은방법으로 표집한다.
β ∼ N (µ
β
, Σβ
), Σβ
=Σ
−1 β0
+ ˜XT
X˜−1
, µ
β
= Σβ
Σ
−1 β0
β0
+ ˜XT
y˜ . 2.2.4. 영과잉 음이항 회귀모형여
ᆼ과잉 포아송회귀모형의 구조적인 영을 제외한 이산모형에서 평균과 분산이 동일하다는가정을 만 ᄌ
ᅩ
ᆨ하지 않는자료의 분석에는영과잉 음이항 회귀모형 (ZINBCP)을적용한다. 영과잉 음이항 회귀모형 ᄋ
ᅳᆫ Y
n
의 분포를구조적으로 영이 발생하는점 확률질량과 일반적인 음이항 회귀분석의 혼합으로 표현 한다. 구조적인 영 여부를나타내는지시변수 z
i
는영과잉 포아송회귀모형과 동일하게 정의한다.q
i
= 1 − pi
의확률로 구조적인 영을가지는 Yi
는다음과 같은확률질량함수를가진다.P (Y
i
= yi
|λi
, qi
) =
(1 − p
i
) + pi
ϕy i i
(1 − ϕi
)r
, if yi
= 0, pi Γ(y i +r)
Γ(r)y i !
ϕy i i
(1 − ϕi
)r
, if yi
> 0.ᄋ ᅳ
ᆷ이항 회귀분석의 모수인 ϕ = exp(X
T
β)/(1 + exp(XT
β))의 표집을위해서 zi
= 1인 구조적인 영 이 아닌관측값에 해당하는반응변수 Y
†
와 공변량 X†
만을이용한다. β의 표집은로지스틱 회귀분석과 유사하게 Pillow와 Scott (2012)의 방법을이용하여 표집한다. η
2i
= Xi T
β일때, zi
= 1인 경우에 대해ᄉ
ᅥ ω
2i
∼ P G(yi
+ r, η2i
)을표집한다. 마찬가지로 zi
= 1인 경우에 대해서 κ2i
= (yi
− r)/2ω2i
이다.β는다음과 같이 표집한다.
β ∼ N (µ
β
, Σβ
), Σβ
=Σ
−1 β0
+ X†T
Ω1
X†
−1
, µ
β
= Σβ
Σ
−1 β0
β0
+ X†T
Ω2
κ2
, ᄋ
ᅧ기서 Ω
2
= diag(ω2
)이고, β0
, Σβ0
은 β의 사전분포에 대한 초모수이다.r의 표집은 z
i
= 1인 구조적인 영이 아닌 반응변수 Y†
와 공변량 X†
만을이용하여, 허들 음이항 회귀 모형과 비슷하게 MH 알고리즘을이용하여 표집한다.
ᄇ
ᅧᆫ화점의 수가 알려지지 않은경우에는 BIC를이용하여 변화점의 수를선택한다. Bauwens와 Rom- bouts (2012)는 알려지지 않은 변화점의 수를 결정하기 위해서 임의의 변화점을 가지는 모형을 Chib (1998)의 방법으로 적합하고, 주변 가능도와 BIC를 사용하여 모형을 선택하였다. Bauwens와 Rom- bouts (2012)는모형이 복잡해질 경우 BIC가 주변 가능도에 비해서 좋은모형을 선택한다고 언급하였 ᄋ
ᅳ며, 본 논문에서는모형선택 기준으로 다음의 BIC를사용한다.
BIC = −2l(θ) + m
k
log n, 여기서 l(θ)는모형의 로그 가능도, m
k
는모형이 가지고 있는모수의 수이며, n은자료의 길이이다.ᄋ
ᅡ울러 상태가 K개인 모형 M
K
의 주변 가능도 f(YT
|MK
)는 Chib (1998), Bauwens와 Rombouts (2012)에 의해서관측값 YT
,모형 MK
의 모수 ΘK
와 전이확률 PK
을이용하여 다음과 같이 계산한다.f (Y
T
|MK
) = f (YT
| MK
, ΘK
, PK
)π(ΘK
, PK
| MK
)π(Θ
K
, PK
| MK
, YT
) . (2.2) 수식 (2.2)에서 주변 가능도의 좌변은모수 Θ
K
, PK
의 영향을받지 않으므로 주변 가능도의 계산을위 하여 우변의 Θ
K
, PK
에 모수공간내 임의의 값을사용할 수 있으며, 일반적으로는사후평균 혹은사후최 빈값을이용한다. 본 논문에서는사후평균 Θ
∗ K
, PK ∗
을적용하여 주변 가능도를다음과 같이 계산한다.f (Y
T
|MK
) = f (YT
| MK
, Θ∗ K
, PK ∗
)π(Θ∗ K
, PK ∗
| MK
)π(Θ
∗ K
, PK ∗
| MK
, YT
) . (2.3) 식 (2.3)에서 가능도 f(Y
T
|MK
, Θ∗ K
, PK ∗
), 사전분포의확률밀도 π(Θ∗ K
, PK ∗
| MK
)는각각 가능도함수 와 사전분포에 Θ
∗ K
, PK ∗
값을적용하여 계산할 수 있다. π(Θ∗ K
, PK ∗
| MK
, YT
)는모형 MK
의 사후분포 의확률밀도이며, 다음과 같이 분해할 수 있다.
π(Θ
∗ K
, PK ∗
|MK
, YT
) = π(PK ∗
|Θ∗ K
, MK
, YT
)π(Θ∗ K
|MK
, YT
). (2.4) 수식 (2.4)의 첫 번째 항 π(P
K ∗
|Θ∗ K
, MK
, YT
)에서 각관측값의 상태 ST
가 주어진 경우 PK
와 ΘK
는 독 립이므로 N개의 사후표본을이용하여 다음과 같이 구할 수 있다.
π(P
K ∗
|Θ∗ K
, MK
, YT
) ≈ 1 NN
X
i=1
π(P
K ∗
|MK
, YT
, S(i) T
),ᄋ
ᅧ기서 {S
(i) T
}N i=1
는 Θ∗ K
가 주어진 경우 마코프 체인 몬테 카를로 방법에서 표집된상태에 대한 N 개의 표본이다. 수식 (2.4)의 두 번째 항 π(Θ
∗
|MK
, YT
)는 N개의 사후표본을이용하여 다음과 같이 구할 수 있다.
π(Θ
∗ K
|MK
, YT
) ≈ 1 NN
X
i=1
π(Θ
∗ K
|MK
, YT
, S(i) T
).3. 모의실험 및 실제 자료 분석
3절에서는 모의실험을 통해서 2절에서 제안하는 모형들에 대해서 실증 분석을 수행한다. 3.1절부 ᄐ
ᅥ 3.4절까지는 제안 모형을 적합하여 성능을 검증하고, 3.5절에서는 과학화 전투훈련 자료에 존재하 ᄂ
ᅳᆫ 전투단계의 변화점을 실증적으로 분석한다. 모의실험 자료는 구조적인 영이 발생할 확률을 결정하 느
ᆫ 로지스틱 회귀분석의 모수를 α, 포아송 회귀분석의 λ 혹은 음이항 회귀분석의 ϕ를 결정하는 모수 르
ᆯ β로 하여 3개의 공변량과 절편을 가지고 있는 조건에서 자료를 생성한다. 각 모수 θ
ij
는 i번째 상 태의 j번째 모수이다. 모의실험의 자료는 변화점이 Υ = {501, 1001}에서 발생하는 n = 1500개의 자 ᄅ
ᅭ를 생성한다. 모의실험 자료의 공변량은 3개이며, U(−1, 1)에서 독립적으로 생성한다. 모의실험은 ᄇ
ᅧᆫ화점의 수가 0, 1, 2, 3인 경우를 고려하여 총 20000번의 반복에서 10000번을 번인으로 제거한 표 보
ᆫ을 이용하여 사후분포를 추정한다. 추정에 사용된 사전분포는 α ∼ N (0, 0.1), β ∼ N (0, 0.1), r ∼ N
(0,∞)
(0, 0.0025)이고, 전이확률은 pi,i+1
= 1/n = 1/1500 = 0.00067을적용한다.3.1. 모의실험 : 허들 포아송 회귀모형의 경험적 성능 ᄋ
ᅵ 절에서는 허들 포아송회귀모형의 변화점 식별모형의 경험적 성능을 검증한다. 모의실험 자료는 ᄒ
ᅥ들포아송회귀모형에서 생성하였고, 다음과 같은모수를가진다.
α =
2 2 1 2 3 −2 2 1 2 −1 2 2
, β =
2 1 1 2 1 −1 2 1 2 −2 1 1
.
ᄆ
ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.1에 정리하였다. 모형선택기준에 의해 변 ᄒ
ᅪ점이 2개 있는모형을선택하였으며, 변화점의 위치는 t = 502, 1001로 실제 변화점의 위치와 비슷하 ᄀ
ᅦ 추정하였다. Figure 3.1의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변 ᄒ
ᅪ점을잘 식별한 것을 볼수 있다.
Table 3.1 Log marginal likelihood and BIC of HPCP result
Number of change point 0 1 2 3
log ML -11255.02 -6893.80 -3391.11 -5660.33
BIC 22568.55 13904.61 6957.73 11554.68
Change point - 1001 502, 1001 502, 1499, 1500
Posterior Changepoint Probabilities
Time
Density
0 500 1000 1500
0.00.20.40.60.81.0
0 500 1000 1500
0.00.20.40.60.81.0
Probability of state
Time
probability
State 1 State 2 State 3
Figure 3.1 Change point and probability of state of HPCP model with 2 change points
ᄇ
ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.2에 정리하였다. 모수의 추정 결과 ᄀ
ᅮ조적인 영의 경우 모수 α의 분산이 상대적으로 크게 추정되었으나 α
20
을 제외하고 95%신용구간이 모수의 참 값을포함하고 있으며, β의 경우 모수를비교적 정확하게 추정하였다.
Table 3.2 Estimates of HPCP model
Par True Mean SD q 0.025 q 0.975 Par True Mean SD q 0.025 q 0.975
State 1
α 10 2 2.130 0.189 1.780 2.518 β 10 2 2.025 0.018 2.005 2.048 α 11 2 2.427 0.311 1.845 3.060 β 11 1 0.969 0.028 0.943 1.026 α 12 1 1.028 0.233 0.574 1.493 β 12 1 0.952 0.020 0.915 0.994 α 13 2 2.078 0.266 1.571 2.609 β 13 2 2.009 0.025 1.979 2.033
State 2
α 20 3 2.564 0.201 2.185 2.977 β 20 1 0.994 0.006 0.989 1.000 α 21 -2 -1.557 0.278 -2.125 -1.027 β 21 -1 -1.016 0.020 -1.043 -1.011 α 22 2 1.822 0.289 1.277 2.397 β 22 2 2.003 0.006 2.000 2.014 α 23 1 0.676 0.246 0.200 1.159 β 23 1 1.003 0.004 0.996 1.005
State 3
α 30 2 2.070 0.184 1.725 2.442 β 30 2 1.967 0.017 1.939 1.981 α 31 -1 -1.463 0.259 -1.987 -0.976 β 31 -2 -2.017 0.017 -2.035 -1.990 α 32 2 1.960 0.278 1.429 2.534 β 32 1 0.984 0.026 0.961 1.040 α 33 2 1.986 0.272 1.467 2.528 β 33 1 1.029 0.022 0.995 1.067
3.2. 모의실험 : 허들 음이항 회귀모형의 경험적 성능 ᄋ
ᅵ 절에서는 허들 음이항 회귀모형의 변화점 식별모형의 경험적 성능을 검증한다. 모의실험 자료는 ᄒ
ᅥ들 음이항 회귀모형에서 생성하였고, 다음과 같은모수를가진다.
α =
2 −2 1 2 1 1 2 −1 2 −1 1 1
, β =
2 2 1 2 1 −2 2 −1 2 1 2 1
, r =
2 1 2
.
ᄆ
ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.3에 정리하였다. 모형선택기준에 의해 변 ᄒ
ᅪ점이 2개 있는모형을선택하였으며, 변화점의 위치는 t = 501, 1004로 실제 변화점의 위치와 비슷하 ᄀ
ᅦ 추정하였다. Figure 3.2의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변화 ᄌ
ᅥ
ᆷ을잘 식별한 것을 볼수 있다.
Table 3.3 Log marginal likelihood and BIC of HNBCP result
Number of change point 0 1 2 3
log ML -5185.56 -5008.82 -4437.16 -5205.78
BIC 10436.94 10149.28 9071.77 10674.84
Change point - 1000 501, 1000 1284, 1472, 1480
ᄇ
ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.4에 정리하였다. 모수의 추정 결과 여
ᆼ과잉 부분의 경우 모수 α의 분산이 상대적으로 크게 추정되었지만 α
12
을 제외하고 95%신용구간이 모수의 참 값을포함하고 있다. β와 r값의 경우 r
2
를제외하고 비교적 정확하게 추정하였다.Posterior Changepoint Probabilities
Time
Density
0 500 1000 1500
0.00.20.40.60.81.0
0 500 1000 1500
0.00.20.40.60.81.0
Probability of state
Time
probability
State 1 State 2 State 3
Figure 3.2 Change point and probability of state of HNBCP model with 2 change points
Table 3.4 Estimates of HNBCP model
Par True Mean SD q 0.025 q 0.975 Par True Mean SD q 0.025 q 0.975
State 1
α 10 2 1.955 0.160 1.644 2.277 β 10 2 2.112 0.111 1.895 2.350 α 11 -2 -2.436 0.264 -2.961 -1.884 β 11 2 2.004 0.083 1.846 2.178 α 12 1 1.527 0.230 1.122 2.062 β 12 1 0.952 0.069 0.815 1.091 α 13 2 2.269 0.257 1.782 2.794 β 13 2 1.984 0.075 1.835 2.131 r 1 2 1.972 0.204 1.593 2.396
State 2
α 20 1 1.089 0.136 0.844 1.366 β 20 1 1.023 0.160 0.726 1.343 α 21 1 1.407 0.219 0.968 1.767 β 21 -2 -1.977 0.153 -2.244 -1.721 α 22 2 2.192 0.253 1.749 2.709 β 22 2 2.364 0.144 2.072 2.641 α 23 -1 -1.058 0.206 -1.478 -0.702 β 23 -1 -1.005 0.152 -1.267 -0.709 r 2 1 0.777 0.148 0.515 1.073
State 3
α 30 2 2.103 0.144 1.833 2.395 β 30 2 1.995 0.084 1.823 2.160 α 31 -1 -0.687 0.225 -1.152 -0.279 β 31 1 0.989 0.069 0.849 1.118 α 32 1 1.080 0.241 0.638 1.583 β 32 2 2.061 0.068 1.924 2.191 α 33 1 1.072 0.236 0.614 1.535 β 33 1 1.084 0.067 0.957 1.225 r 3 2 1.963 0.161 1.666 2.303
3.3. 모의실험 : 영과잉 포아송 회귀모형의 경험적 성능 ᄋ
ᅵ 절에서는영과잉 포아송회귀모형의 변화점 식별모형의 경험적 성능을검증한다. 모의실험 자료는 여
ᆼ과잉 포아송회귀모형에서 생성하였으며, 다음과 같은모수를가진다.
α =
2 2 1 2 1 −2 2 1 2 −1 2 2
, β =
2 1 1 2 1 −1 2 1 2 −2 1 1
.
ᄆ
ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.5에 정리하였다. 주변 가능도를기준으 ᄅ
ᅩ 변화점이 3개인 모형과 BIC에 의해 변화점이 2개인 모형이 선택되었으나 BIC를기준으로 변화점 ᄋ
ᅵ 2개 있는모형을최종선택하였으며, 변화점의 위치는 t = 501, 1001로 정확하게 추정하였다. Figure 3.3의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변화점을잘 식별한 것을 볼 ᄉ
ᅮ 있다.
ᄇ
ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.6에 정리하였다. 모수의 추정 결과 ᄀ
ᅮ조적인 영 부분의 경우 상태 2에 해당하는 α
2·
의 경우 분산이 상대적으로 크고, 95%신용구간이 모수 의 참 값을벗어나 추정이 잘 되지 않았으나, β의 경우 모수를참 값과 유사하게 추정하였다.
Table 3.5 Log marginal likelihood and BIC of ZIPCP result
Number of change point 0 1 2 3
log ML -10771.44 -6190.67 -3243.98 -3242.20
BIC 21601.39 12498.35 6663.47 6718.42
Change point - 993 501, 1001 501, 1001, 1496
Posterior Changepoint Probabilities
Time
Density
0 500 1000 1500
0.00.20.40.60.81.0
0 500 1000 1500
0.00.20.40.60.81.0
Probability of state
Time
probability
State 1 State 2 State 3
Figure 3.3 Change point and probability of state of ZIPCP model with 2 change points
Table 3.6 Estimates of ZIPCP model
Par True Mean SD q 0.025 q 0.975 Par True Mean SD q 0.025 q 0.975
State 1
α 10 2 2.153 0.197 1.786 2.557 β 10 2 1.875 0.020 1.835 1.915 α 11 2 1.991 0.337 1.363 2.676 β 11 1 1.094 0.020 1.054 1.134 α 12 1 0.908 0.291 0.333 1.480 β 12 1 1.034 0.020 0.994 1.074 α 13 2 1.940 0.266 1.316 2.608 β 13 2 2.092 0.026 2.041 2.144
State 2
α 20 1 1.423 0.225 1.016 1.911 β 20 1 0.637 0.037 0.564 0.708 α 21 -2 -2.093 0.361 -2.836 -1.407 β 21 -1 -1.284 0.038 -1.355 -1.215 α 22 2 1.173 0.373 0.433 1.887 β 22 2 2.260 0.047 2.171 2.352 α 23 1 0.224 0.333 -0.446 0.862 β 23 1 1.045 0.036 0.975 1.117
State 3
α 30 2 2.343 0.235 1.914 2.838 β 30 2 1.798 0.020 1.756 1.839 α 31 -1 -0.259 0.320 -0.888 0.375 β 31 -2 -2.065 0.027 -2.119 -2.012 α 32 2 2.236 0.360 1.552 2.953 β 32 1 1.146 0.021 1.104 1.188 α 33 2 2.046 0.359 1.378 2.782 β 33 1 1.099 0.020 1.058 1.139
3.4. 모의실험 : 영과잉 음이항 회귀모형의 경험적 성능 ᄋ
ᅵ 절에서는영과잉 음이항 회귀모형의 변화점 식별모형의 경험적 성능을검증한다. 모의실험 자료는 여
ᆼ과잉 음이항 회귀모형에서 생성하였고, 다음과 같은모수를가진다.
α =
2 −2 1 2 3 1 2 1 2 −1 1 1
, β =
2 2 1 2 1 −2 2 1 3 −1 1 1
, r =
2 1 3
. ᄆ
ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.7에 정리하였다. 모형선택기준에 의해 변 ᄒ
ᅪ점이 2개 있는모형을선택하였으며, 변화점의 위치는 t = 500, 1002로 실제 변화점의 위치와 비슷하 ᄀ
ᅦ 추정하였다. Figure 3.4의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변화 ᄌ
ᅥ
ᆷ을잘 식별한 것을 볼수 있다.
ᄇ
ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.8에 정리하였다. 영과잉 부분의 경 ᄋ
ᅮ 모수 α의 분산이 크게 추정되었고, 특히 상태 2의 α