• 검색 결과가 없습니다.

Bayesian change point detection model for hurdle and zero-inflated regression : Change of combat stage in KCTC data <sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Bayesian change point detection model for hurdle and zero-inflated regression : Change of combat stage in KCTC data <sup>†</sup>"

Copied!
19
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2020, 31

(

6)

,

1089–1107

허들 및 영과잉 회귀모형의 베이지안 변화점 식별 모형 : 과학화 전투훈련의 전투단계 변화 분석

기

ᆷ기성

1

·최태련

2

12

고려대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 25ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ

요 약

ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄒ ᅥᄃ ᅳ ᆯ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅢᄉ ᅥ ᄀ ᅩᄎ ᅡ ᆯᄒ ᅡ ᆫᄃ ᅡ.

ᅥᄃ ᅳ ᆯ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄋ ᅵᄉ ᅡ ᆫᄒ ᅧ ᆼ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪ ᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ, ᄒ ᅥᄃ ᅳ ᆯ ᄒ

ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄀ ᅪ ᄋ ᅧ ᆼᄋ ᅵ ᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄃ ᅬ ᆫ ᄋ ᅵᄉ ᅡ ᆫᄒ ᅧ ᆼ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸ, ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄀ ᅪ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ

ᅵᄉ ᅡ ᆫᄒ ᅧ ᆼ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸᄋ ᅳᄅ ᅩ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄋ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪ ᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄇ ᅡᄐ ᅡ ᆼᄋ ᅳᄅ ᅩ ᄒ ᅡᄋ ᅧ Chib (1998)ᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ ᄀ ᅵᄇ ᅡ ᆫᄒ ᅡ ᆫ ᄀ ᅮᄌ ᅩᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄉ ᅵ ᆨᄇ ᅧ ᆯᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦ ᄋ

ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄋ ᅧ ᆫᄀ ᅮᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄉ ᅥ ᆫᄐ ᅢ ᆨᄀ ᅵᄌ ᅮ ᆫ ᄋ ᅳᄅ ᅩ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄒ ᅡᄀ ᅩ, ᄇ ᅧ ᆫ ᄒ

ᅪᄌ ᅥ ᆷᄋ ᅴ ᄉ ᅮᄋ ᅪ ᄋ ᅱᄎ ᅵᄋ ᅦ ᄃ ᅢᄒ ᅢᄉ ᅥ ᄎ ᅮᄅ ᅩ ᆫ ᄒ ᅡ ᆫᄃ ᅡ. ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄀ ᅥ ᆷᄌ ᅳ ᆼ ᄒ ᅡᄀ ᅩ, ᄀ ᅪᄒ ᅡ ᆨᄒ ᅪ ᄌ ᅥ ᆫᄐ ᅮᄒ ᅮ ᆫᄅ ᅧ ᆫ ᄌ

ᅡᄅ ᅭᄋ ᅦ ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥ ᄋ ᅧ ᆫᄀ ᅮᄒ ᅡ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄉ ᅵ ᆨᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅪᄒ ᅡ ᆨᄒ ᅪ ᄌ ᅥ ᆫᄐ ᅮᄒ ᅮ ᆫᄅ ᅧ ᆫᄋ ᅴ ᄌ ᅥ ᆫᄐ ᅮᄃ ᅡ ᆫᄀ ᅨ ᄇ ᅧ ᆫᄒ ᅪ ᄋ

ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ ᅵ ᆯᄌ ᅳ ᆼᄌ ᅥ ᆨ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄉ ᅮᄒ ᅢ ᆼᄒ ᅡ ᆫᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅪᄒ ᅡ ᆨᄒ ᅪ ᄌ ᅥ ᆫᄐ ᅮᄒ ᅮ ᆫᄅ ᅧ ᆫ, ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ, ᄋ ᅧ ᆼᄀ ᅪᄋ ᅵ ᆼ ᄆ ᅩᄒ ᅧ ᆼ, ᄒ ᅥᄃ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼ, BIC.

1. 서론 후

ᆫ련에서의 땀 한방울은전투에서의 피 한방울이라는격언이 있듯이, 교육훈련은 군부대의 전투력 발 ᄒ

ᅱ에서 가장 중요한 요소이다. 순항미사일이 정확하게 목표 건물의 창문을명중시키는장면이 전 세계 ᄅ

ᅩ 보도되어 첨단 무기를사용한 현대전의 효시로 알려진 걸프전에서도 미 육군 관계자는 국립훈련센 ᄐ

ᅥ에서 준비한대로 싸워 승리하였으며, 실제 전투가 국립훈련센터의 훈련보다 쉬웠다고 증언하였을 만 크

ᆷ교육훈련의 중요성은자명하다. 한국군은교육훈련 여건 보장을위해서 미군의 국립훈련센터에 대응 ᄒ

ᅡ는 훈련장의 소요를 1980년대에 제기하여 2002년 과학화 전투훈련단 (Korea combat training cen- ter; KCTC; https://www.kctc.mil.kr:452/)을창설하였다. 과학화 전투훈련단은 2003년부터 중대 ᄀ

ᆸ전투훈련, 2005년 대대급전투훈련을지원하였고, 2018년부터는여단급 훈련을지원하고 있다. 과학 ᄒ

ᅪ 전투훈련은부대가 실제 보유하고 있는무기와 장비를사용하여 실시간으로 대항군과 훈련을 진행하 느

ᆫ 실전과 가장 유사한 훈련이다.

ᅬ근과학화 전투훈련에 대하여 통계적 분석과 연구가 이루어져왔으며, 부대의 교육훈련과 전투력 향 ᄉ

ᅡᆼ에 의미 있는결과를제공한다. 예를들어 Kim과 Kim (2014)은 공격작전에 영향을미치는 8개의 변

† ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄋ ᅦ ᄋ ᅴᄒ ᅡᄋ ᅧ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ (K2009431).

1 (02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

2 ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ : (02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᅮ를선별하고 다중회귀분석으로 분석하였다. Kim 등 (2015)은생존나무 모형을적용하여 전술제대의 ᄀ

ᅩᆼ격작전간 전투원의 생존에 미치는영향을 분석하였다. Kim 등 (2016)은시간 종속변수인 생존자료 ᄋ

ᅪ 경시적 자료를결합하여 전투원의 생존성에 대한 분석을하였다. Kim 등 (2017)은과학화 전투훈련 ᄌ

ᅡ료의 반응변수의 특성을반영하여 영과잉 및 허들회귀모형을이용하여 전투원이 적을전투불능상태 ᄅ

ᅩ 만드는데 영향을미치는요소를 분석하였다.

ᅩᆫ연구에서는과학화 전투훈련 자료의 특성을고려하여 허들 및 영과잉 회귀모형의 베이지안 변화점 시

ᆨ별 모형을 제안하고, 구조적인 영을 가지는 과학화 전투훈련 자료에서 전투단계의 변화를 분석한다.

ᅮ조적인 영의 적합을위해서 허들모형 혹은영과잉 모형을사용한다. Mullahy (1986)에 의해 허들모 혀

ᆼ, Singh (1963)에 의해 영과잉 포아송모형이 소개된이후로 구조적인 영을가지는 자료를 분석하는 ᄇ

ᅡᆼ법에 대해서 많은연구가 이루어졌다. Lambert (1992)는 공변량의 효과를고려한 영과잉 포아송 회 ᄀ

ᅱ모형, Greene (1994)은평균과 분산이 동일하다는포아송 분포의 가정의 한계를극복한 영과잉 음이 ᄒ

ᅡᆼ 회귀모형을제안하였다. Pillow와 Scott (2012)는 Polya-gamma 분포를이용한 음이항 회귀모형의 ᄀ

ᅵᆸ스 표집기를 제안하였으며, Polson 등 (2013)은 Polya-gamma 분포를 이용한 로지스틱 회귀모형의 ᄀ

ᅵᆸ스 표집기를제안하였다. Neelon (2019)은앞의 두 방법을결합한 영과잉 음이항 회귀모형의 깁스 표 지

ᆸ기를 랜덤효과, 시공간 자료에 적용할 수 있도록확장하였다.

ᅧᆫ화점을 식별하기 위한 베이지안 변화점 식별의 기본적인 모형은 Chernoff와 Zacks (1964)의 변화 ᄌ

ᅥᆷ 식별을 위한 베이지안 방법이다. Carlin 등 (1992)은 한 개의 변화점이 존재하는 경우 마코프 체 ᄋ

ᅵᆫ 몬테 카를로 방법으로 변화점의 위치를 추론하는 방법을 제안하고, Stephens (1994)는 Carlin 등 (1992)의 연구를변화점이 다수 존재하는경우로확장하였다. Chib (1998)은변화점이 존재할확률을 ᄌ

ᅥᆫ이확률을이용한 마코프 체인 몬테 카를로 방법으로 추론하였다. Koop과 Potter (2007)는포아송계 ᄎ

ᆼ사전분포를 이용하여 변화점의 수와 위치를추론하고, Ko 등 (2015)은 은닉 마코프 모형에 디리슐 ᄅ

ᅦ 과정을적용하여 변화점의 수와 위치를추론할 수 있는방법을제안하였다. 변화점 모형은다양한 분 ᄋ

ᅣ에서활용이 되었으며, Kang과 Kang (2019)은최대가능도 추정과 CUSUM 관리도를이용하여 국내 ᄋ

ᅴ 원자력 발전소 사고 및 고장 건수의 변화점의 위치를추정하고, Kim과 Lee (2020)는고령 운전자에 ᄃ

ᅢ한 교통사고 발생건수의 변화점 탐지에 최대가능도추정량에 기반한 CUSUM관리도 검정을적용하였 ᄃ

ᅡ.

ᅵ러한 구조적인 영을가지는자료를 분석하는모형과 변화점 식별에 대한 각 분야에서 이루어지는다 ᄋ

ᅣᆼ한 연구에도 불구하고 구조적인 영을가지고 있는자료에 대한 변화점을추정하는방법에 대한 연구는 ᄆ

ᆭ이 이루어지지 않았다. Kim (1998, 1998)은 가능도비 검정을 이용하여 영과잉 포아송 모형의 특정 ᄉ

ᅵ점에 변화점 존재 여부를 검정하는방법을 제안하였다. 기존의 연구는단일 변화점이 특정 시점에서 ᄇ

ᅡᆯ생한다는가정하에 변화점의 존재 여부를검정한 것으로 변화점의 수가 다수인 경우 적용하기 어려운 ᄒ

ᅡᆫ계를가진다. 이에, 본 논문에서는구조적인 영을가지는자료에 다수의 변화점이 존재하는경우 사용 ᄒ

ᅡᆯ 수 있는베이지안 모형을제안하고자 한다. 구체적으로 허들회귀모형 및 영과잉 회귀모형을바탕으 ᄅ

ᅩ Chib (1998)의 변화점 식별방법을적용하여 변화점을 식별하고, 변화점의 수가 알려지지 않은경우 ᄋ

ᅦ는 Bauwens와 Rombouts (2012)에서 적용한 로그 주변 가능도 (log marginal likelihood; log ML)와 BIC (Bayesian information criterion)를모형선택 기준으로 이용하여 적절한 모형을선택하여 변화점 ᄋ

ᅴ 수를추정한다.

ᅵ를 위한, 본 논문의 구성은다음과 같다. 2절에서는 본 논문이 제안하는 구조적인 영이 존재하는 ᄌ

ᅡ료에 대한 변화점을 추정하는 베이지안 모형으로 허들회귀모형, 영과잉 회귀모형을바탕으로 Chib (1998)의 변화점 식별 모형을적용한 방법에 대해서 설명한다. 3절에서는모의실험을 통하여 모형선택 ᄀ

ᅵ준이 변화점의 수와 위치를적절하게 식별하고, 각 상태별 모수에 대한 추정이 잘 이루어지는지 검증 ᄒ

ᅡᆫ다. 실제 자료분석은과학화 전투훈련 자료를 제안한 모형으로 적합하여 전투단계의 변화점의 수와

(3)

ᅱ치를 식별하고, 실증적으로 분석한다. 마지막으로 4절 결론에서는 본 논문을정리하고 향후 연구 방 ᄒ

ᅣᆼ에 대하여 논의한다.

2. 구조적인 영을 가진 자료의 변화점 식별

2.1. 변화점 식별 과

ᆫ측된자료의 어느 특정 지점에서 변화가 발생하여 기존의 구조와는다른새로운구조를따르는 경 ᄋ

ᅮ 변화가 발생하는 지점을 변화점이라고 한다. Chib (1998)은 변화점의 수가 알려진 경우 이산시간 ᄆ

ᅡ코프 과정과 주변 가능도를 이용하여 변화점을 식별하는 방법을 제안하였다. 관측된 자료 Y

n

= (y

1

, y

2

, . . . , y

n

)에 m개의 변화점 Υ = {τ

1

, . . . , τ

m

}, τ

1

> 1, τ

m

≤ n이 존재한다면 m + 1개의 상태 ᄋ

ᅦ 따라서 별도의 모수를가지게된다. 상태가 변할확률은아래의 전이행렬 P 로 표현되며, 전이행렬의 ᄀ

ᆨ 원소 p

ij

= P (s

t

= j|s

t−1

= i)는 t − 1시점에서 t시점으로 시간이 변화하면서 상태가 i상태에서 j상 ᄐ

ᅢ로 전이할확률이다. 상태의 초기값은 t = 1시점에서 s

t

= 1이고, 변화점의 수가 m개 일 때 마지막 ᄉ

ᅵ점인 t = n에서는 m + 1상태에 속하게된다. k번째 변화점 τ

k

는 s

τ k −1

= k, s

τ k

= k + 1인 경우 발 새

ᆼ한다.

P =

p

11

p

12

0 . . . 0 0 p

22

p

23

. . . 0

..

. ... ... . .. ... ..

. ... 0 p

mm

p

m,m+1

0 0 . . . 0 1

 .

ᅥᆫ이행렬을 살펴보면, 각 상태는 1단계씩 전이가 가능하며, t 시점에서 상태 k에 속할확률 p(s

t

= k)는 t − 1시점에서 t 시점으로 진행하면서 상태 k − 1에서 k로 전이할확률과 t − 1 시점에서 상태 k에 ᄌ

ᅡᆫ류할확률의 합으로 다음과 같다.

p(s

t

= k|Y

t

, Θ, P ) = p(s

t

= k|Y

t−1

, Θ, P )f (y

t

|Y

t−1

, θ

k

) P

k

l=k−1

p(s

t

= l|Y

t−1

, Θ, P )f (y

t

|Y

t−1

, θ

l

). (2.1) ᄉ

ᅮ식 (2.1)을연쇄적으로 계산하여 각 상태에 속할확률을계산할 수 있다.

ᅥᆫ이행렬 P 의 표집 과정은다음과 같다. 관측값 Y

n

과 모수 Θ, 상태 S

n

이 주어진 경우 P 의 사후분 ᄑ

ᅩ P |Y

n

, S

n

, Θ는 S

n

이 주어진 경우 (Y

n

, Θ)와 독립이다. 그러므로 전이행렬 P 의 원소 p

ii

는 P |S

n

에 ᄉ

ᅥ 다음과 같은과정으로 표집할 수 있다.

p

ii

의 사전분포가 다음과 같은베타분포라고 가정하자.

p

ii

∼ Beta(a, b).

p

ii

의 값이 주어진 경우 i상태에서 i + 1 상태로 전이가 발생하면 i상태로 다시 돌아갈 수 없으므로 n

ii

번 ᄋ

ᅴ i상태의 잔류 이후 마지막으로 i + 1상태로의 전이가 발생하게된다. 즉,가능도는 p

n ii ii

(1 − p

ii

)가된 ᄃ

ᅡ. 사전분포와 가능도를이용하여 사후분포를계산하면 다음의 베타분포가된다.

p(p

ii

|n

ii

) ∼ Beta(a + n

ii

, b + 1).

p

i,i+1

= 1 − p

ii

이므로, i = 1, . . . , m에 대해서 p

ii

의 사후분포 표본을표집하면 전이행렬 P 의 모든 원 ᄉ

ᅩ의 값을알 수 있다.

(4)

2.2. 구조적인 영을 가지는 이산형 자료의 분석 ᄀ

ᅮ조적인 영을 가지는 이산형 자료의 분석에서 구조적인 영을 표현하기 위해서 다양한 혼합모형이 ᄌ

ᅦ안되었다. 혼합모형중에서 대표적인 방법으로 Mullahy (1986)에 의해 소개된 허들 모형과 Singh (1963)이 제안한 영과잉 모형 두 가지가 있다. 허들 모형은 점질량을 가지는 영과 영이 절단된 포아 ᄉ

ᆼ회귀분석 혹은 음이항 회귀분석의 혼합모형으로 구성되어 있다. 허들모형에서 구조적인 영의 발생 화

ᆨ률이 기본적인 이산형 모형에서의 영의 발생확률보다큰경우 영을과도하게 많이 가지는 자료로 볼 ᄉ

ᅮ 있으며, 반대의 경우 영을 과소하게 가지는자료로 볼수 있다. 영과잉 모형은영의 발생 원인을 구 ᄌ

ᅩ적인 영과 이산형 분포에서 무작위로 발생하는영으로 구분하며, 영이 과도하게 많이 가지는경우만을 ᄀ

ᅡ정한다. 본 논문에서는구조적인 영을가지는이산형 자료의 분석을위해서 허들포아송회귀모형, 허 ᄃ

ᆯ 음이항 회귀모형, 영과잉 포아송회귀모형, 영과잉 음이항 회귀모형을적용한다.

ᅡ료가 가지고 있는구조적인 영의 적합을위해서 Polson 등 (2013)이 제안한 Polya-gamma 분포를 ᄋ

ᅵ용한 로지스틱 회귀분석의 모수를표집하는방법을적용한다. 반응변수 Y

n

이 구조적인 영을가지는 ᄋ

ᅵ산형 자료인 경우 Y

n

의 분포를영이 발생하는점 확률질량과 이산모형의 혼합으로 표현할 수 있다.

ᅮ조적인 영을가질확률은 1 − p

i

이며, 공변량 X

ij

는 i관측값의 j번째 공변량이며, 공변량의 수가 l일 ᄄ

ᅢ, p

i

는다음과 같이 정의한다.

log

 p

i

1 − p

i



= α

s i 0

+ α

s i 1

X

i1

+ α

s i 2

X

i2

+ · · · + α

s i l

X

il

. ᄀ

ᅮ조적인 영을 가지지 않을 확률인 p

i

는 상태 s

i

일때, 모수 α

s i

를 가지는 로지스틱 분포를 따른다.

Polson 등 (2013)은 Polya-gamma 분포를이용하여 로지스틱 회귀분석의 모수를추정하는방법을제안 ᄒ

ᅡ였다. 확률변수 ω가 P G(b, c) 분포를따르면 ω의확률밀도 함수는 b > 0, c ∈ R일 때, 다음과 같다.

ω ∼ P G(b, c)=

d

1 2π

2

X

k=1

g

k

(k − 1/2)

2

+ c

2

/ (4π

2

). ᄋ

ᅧ기서 g

k

는 독립적인 Gamma(b, 1)의 분포를따른다.

η

1i

= X

i T

α일 때, ω

1i

∼ P G(1, η

1i

)이고, κ

1i

= (z

i

− 1/2)/ω

1i

이다. 여기서 z

i

는구조적인 영의 발 새

ᆼ 여부에 대한 지시변수로 z

i

= 0은 구조적인 영이 발생한 것을의미한다. 그러므로 y

i

> 0인 경우 z

i

= 1, y

i

= 0인 경우 허들모형은 z

i

= 0, 영과잉 모형은 p

sz

/(p

sz

+ p

dz

)의확률로 0의 값을가진다. 여 ᄀ

ᅵ서 p

sz

는구조적인 영이 발생할확률, p

dz

는이산형 모형에서 자연스럽게 영이 발생할확률이다. α의 ᄀ

ᆹ은다음과 같이 표집한다.

α ∼ N (µ

α

, Σ

α

), Σ

α

=



Σ

−1 α0

+ X

T

1

X



−1

, µ

α

= Σ

α



Σ

−1 α0

α

0

+ X

T

1

κ

1

 , ᄋ

ᅧ기서 Ω

1

= diag(ω

1

)이고, α

0

, Σ

α0

은 α의 사전분포에 대한 초모수이다. 구조적인 영을제외한 이산형 여

ᆼ과잉 자료의 적합 방법은각 모형별로 아래에 이어서 설명하기로 한다.

2.2.1. 허들 포아송 회귀모형 ᄒ

ᅥ들포아송회귀모형 (HPCP)은 Y

n

의 분포를영이 발생하는점확률질량과 영이 절단된포아송회 ᄀ

ᅱ분석의 혼합으로 표현한다. 1 − p

i

의확률로 영의 값을가지는 Y

i

는다음과 같은확률질량함수를 가

(5)

ᄌ ᅵᆫ다.

P (Y

i

= y

i

i

, p

i

) =

1 − p

i

, if y

i

= 0, p

i

e −λi λ yi i

y i !(1−e −λ )

, if y

i

> 0, ᄋ

ᅧ기서 공변량의 수가 l일때, λ

i

는다음과 같이 정의한다.

log(λ

i

) = β

s i 0

+ β

s i 1

X

i1

+ β

s i 2

X

i2

+ · · · + β

s i l

X

il

. 여

ᆼ이 절단된포아송회귀분석의 모수 λ = exp(X

T

β)를추정하기 위해서는영이 아닌관측값 y

와 해 ᄃ

ᅡᆼ하는 공변량 X

를이용하여 다음과 같이 MH 알고리즘을적용하여 사후표본을표집한다.

• 제안분포에서 β

를표집한다.

• 제안분포에 의해서 q(β|β

), q(β

|β)를계산한다.

• 아래의 영이 절단된포아송 분포의 가능도에서 π(β), π(β

)를계산한다.

π(β) =

n

Y

i=1

exp(X

i

β)

y i

exp(− exp(X

i

β)) y

i

!(1 − exp(− exp(X

i

β)))

! .

• 채택확률 p(β

|β) = minh

π(β )q(β|β ) π(β)q(β )

, 1

i ᄋ

ᅦ 의해서 β

를선택하거나 β를유지한다.

2.2.2. 허들 음이항 회귀모형 ᄒ

ᅥ들포아송회귀모형의 경우 구조적인 영을제외한 이산모형에서 평균과 분산이 동일하다는가정을 ᄀ

ᅡ지고 있다. 그러나 자료가 이러한 가정을만족하지 않는경우에는허들 음이항 회귀모형 (HNBCP)을 ᄌ

ᆨ용한다. Blackwell (2018)에 의하면 변화점을결정하는방법보다 변화점 내에서 올바른모형을결정 ᄒ

ᅡ는것이 더 중요하므로 포아송회귀모형의 가정을만족하지 않는경우 반드시 음이항 회귀모형을적용 ᄒ

ᅢ야 한다.

ᅥ들 음이항 회귀모형은 Y

n

의 분포를구조적으로 영이 발생하는점확률질량과 영이 절단된 음이항 ᄒ

ᅬ귀분석의 혼합으로 표현한다. 1 − p

i

의확률로 영의 값을가지는 Y

i

는다음의확률질량함수를가진다.

P (Y

i

= y

i

i

, q

i

) =

1 − p

i

, if y

i

= 0, p

i Γ(y i +r)

Γ(r)y i !

ϕ yi i (1−ϕ i ) r

1−(1−ϕ i ) r

, if y

i

> 0, ᄋ

ᅧ기서 공변량의 수가 l일때, ϕ

i

는다음과 같이 정의한다.

log

 ϕ

i

1 − ϕ

i



= β

s i 0

+ β

s i 1

X

i1

+ β

s i 2

X

i2

+ · · · + β

s i l

X

il

. ᄋ

ᆷ이항 회귀분석의 모수인 ϕ = exp(X

T

β)/(1 + exp(X

T

β))의 표집을위해서 영이 아닌관측값 y

와 ᄒ

ᅢ당하는 공변량 X

를이용하여 다음과 같이 MH 알고리즘을적용하여 사후표본을표집한다.

• 제안분포에서 β

를표집한다.

• 제안분포에 의해서 q(β|β

), q(β

|β)를계산한다.

• 아래의 영이 절단된 음이항 분포의 가능도에서 π(β|r), π(β

|r)를계산한다.

π(β, r) =

n

Y

i=1

Γ(y

i

+ r) y

i

!Γ(r)

! exp(X

i †T

β) 1 + exp(X

i †T

β)

!

y i

× 1

1 + exp(X

i †T

β)

!

r



1 − 1 1 + exp(X

i †T

β)

!

r

!

(6)

• 채택확률 p(β

|β) = minh

π(β ∗ )q(β|β ) π(β)q(β )

, 1i

ᅦ 의해서 β

를선택하거나 β를유지한다.

ᅩ수 r의 표집을위해서 영이 아닌관측값 y

와 해당하는 공변량 X

를이용하여 β와 동일한 방법으 ᄅ

ᅩ MH 알고리즘을적용하여 사후표본을표집한다.

• 제안분포에서 r

를표집한다.

• 제안분포에 의해서 q(r|r

), q(r

|r)를계산한다.

• β의 표집에 사용한 영이 절단된 음이항 분포의 가능도에서 π(r|β), π(r

|β)를계산한다.

• 채택확률 p(r

|r) = minh

π(r )q(r|r ) π(r)q(r )

, 1i

ᅦ 의해서 r

를선택하거나 r를유지한다.

2.2.3. 영과잉 포아송 회귀모형 여

ᆼ과잉 포아송 회귀모형 (ZIPCP)은 Y

n

의 분포를구조적으로 영이 발생하는 점확률질량과 일반적 ᄋ

ᅵᆫ 포아송회귀분석의 혼합인 영과잉 포아송회귀모형으로 표현한다. 1 − p

i

의확률로 구조적인 영을가 ᄌ

ᅵ는 Y

i

는다음과 같은확률질량함수를가진다.

P (Y

i

= y

i

i

, q

i

) =

(1 − p

i

) + p

i

e

−λ i

, if y

i

= 0, p

i

e −λi λ yi i

y i !

, if y

i

> 0.

ᅩ아송 회귀분석의 모수 λ = exp(X

T

β)를 추정하기 위해서 z

i

= 1인 구조적인 영이 아닌 관측값 ᄋ

ᅦ 해당하는 반응변수 Y

와 공변량 X

만을 이용하여 추정한다. 모수의 추정을 위해서 Fr¨uhwirth- Schnatter 등 (2009)의 보조변수를 이용한 깁스 표집 방법을 적용하였다. log(λ

i

) = X

i T

β이며, Fr¨uhwirth-Schnatter와 Wagner (2006)에 소개된 가중치 w

k

(·)를 이용하여 ˜X = w

k

(·)X라고 정의 ᄒ

ᅡ고, β는다음과 같은방법으로 표집한다.

β ∼ N (µ

β

, Σ

β

), Σ

β

=

Σ

−1 β0

+ ˜X

T

X˜

−1

, µ

β

= Σ

β



Σ

−1 β0

β

0

+ ˜X

T

y˜ . 2.2.4. 영과잉 음이항 회귀모형

여

ᆼ과잉 포아송회귀모형의 구조적인 영을 제외한 이산모형에서 평균과 분산이 동일하다는가정을 만 ᄌ

ᆨ하지 않는자료의 분석에는영과잉 음이항 회귀모형 (ZINBCP)을적용한다. 영과잉 음이항 회귀모형 ᄋ

ᅳᆫ Y

n

의 분포를구조적으로 영이 발생하는점 확률질량과 일반적인 음이항 회귀분석의 혼합으로 표현 ᄒ

ᅡᆫ다. 구조적인 영 여부를나타내는지시변수 z

i

는영과잉 포아송회귀모형과 동일하게 정의한다.

q

i

= 1 − p

i

의확률로 구조적인 영을가지는 Y

i

는다음과 같은확률질량함수를가진다.

P (Y

i

= y

i

i

, q

i

) =

(1 − p

i

) + p

i

ϕ

y i i

(1 − ϕ

i

)

r

, if y

i

= 0, p

i Γ(y i +r)

Γ(r)y i !

ϕ

y i i

(1 − ϕ

i

)

r

, if y

i

> 0.

ᄋ ᅳ

ᆷ이항 회귀분석의 모수인 ϕ = exp(X

T

β)/(1 + exp(X

T

β))의 표집을위해서 z

i

= 1인 구조적인 영 ᄋ

ᅵ 아닌관측값에 해당하는반응변수 Y

와 공변량 X

만을이용한다. β의 표집은로지스틱 회귀분석과 ᄋ

ᅲ사하게 Pillow와 Scott (2012)의 방법을이용하여 표집한다. η

2i

= X

i T

β일때, z

i

= 1인 경우에 대해

(7)

ᅥ ω

2i

∼ P G(y

i

+ r, η

2i

)을표집한다. 마찬가지로 z

i

= 1인 경우에 대해서 κ

2i

= (y

i

− r)/2ω

2i

이다.

β는다음과 같이 표집한다.

β ∼ N (µ

β

, Σ

β

), Σ

β

=

Σ

−1 β0

+ X

†T

1

X



−1

, µ

β

= Σ

β



Σ

−1 β0

β

0

+ X

†T

2

κ

2

 , ᄋ

ᅧ기서 Ω

2

= diag(ω

2

)이고, β

0

, Σ

β0

은 β의 사전분포에 대한 초모수이다.

r의 표집은 z

i

= 1인 구조적인 영이 아닌 반응변수 Y

와 공변량 X

만을이용하여, 허들 음이항 회귀 ᄆ

ᅩ형과 비슷하게 MH 알고리즘을이용하여 표집한다.

ᅧᆫ화점의 수가 알려지지 않은경우에는 BIC를이용하여 변화점의 수를선택한다. Bauwens와 Rom- bouts (2012)는 알려지지 않은 변화점의 수를 결정하기 위해서 임의의 변화점을 가지는 모형을 Chib (1998)의 방법으로 적합하고, 주변 가능도와 BIC를 사용하여 모형을 선택하였다. Bauwens와 Rom- bouts (2012)는모형이 복잡해질 경우 BIC가 주변 가능도에 비해서 좋은모형을 선택한다고 언급하였 ᄋ

ᅳ며, 본 논문에서는모형선택 기준으로 다음의 BIC를사용한다.

BIC = −2l(θ) + m

k

log n, ᄋ

ᅧ기서 l(θ)는모형의 로그 가능도, m

k

는모형이 가지고 있는모수의 수이며, n은자료의 길이이다.

ᅡ울러 상태가 K개인 모형 M

K

의 주변 가능도 f(Y

T

|M

K

)는 Chib (1998), Bauwens와 Rombouts (2012)에 의해서관측값 Y

T

,모형 M

K

의 모수 Θ

K

와 전이확률 P

K

을이용하여 다음과 같이 계산한다.

f (Y

T

|M

K

) = f (Y

T

| M

K

, Θ

K

, P

K

)π(Θ

K

, P

K

| M

K

)

π(Θ

K

, P

K

| M

K

, Y

T

) . (2.2) ᄉ

ᅮ식 (2.2)에서 주변 가능도의 좌변은모수 Θ

K

, P

K

의 영향을받지 않으므로 주변 가능도의 계산을위 ᄒ

ᅡ여 우변의 Θ

K

, P

K

에 모수공간내 임의의 값을사용할 수 있으며, 일반적으로는사후평균 혹은사후최 ᄇ

ᅵᆫ값을이용한다. 본 논문에서는사후평균 Θ

K

, P

K

을적용하여 주변 가능도를다음과 같이 계산한다.

f (Y

T

|M

K

) = f (Y

T

| M

K

, Θ

K

, P

K

)π(Θ

K

, P

K

| M

K

)

π(Θ

K

, P

K

| M

K

, Y

T

) . (2.3) 시

ᆨ (2.3)에서 가능도 f(Y

T

|M

K

, Θ

K

, P

K

), 사전분포의확률밀도 π(Θ

K

, P

K

| M

K

)는각각 가능도함수 ᄋ

ᅪ 사전분포에 Θ

K

, P

K

값을적용하여 계산할 수 있다. π(Θ

K

, P

K

| M

K

, Y

T

)는모형 M

K

의 사후분포 ᄋ

ᅴ확률밀도이며, 다음과 같이 분해할 수 있다.

π(Θ

K

, P

K

|M

K

, Y

T

) = π(P

K

K

, M

K

, Y

T

)π(Θ

K

|M

K

, Y

T

). (2.4) ᄉ

ᅮ식 (2.4)의 첫 번째 항 π(P

K

K

, M

K

, Y

T

)에서 각관측값의 상태 S

T

가 주어진 경우 P

K

와 Θ

K

는 독 리

ᆸ이므로 N개의 사후표본을이용하여 다음과 같이 구할 수 있다.

π(P

K

K

, M

K

, Y

T

) ≈ 1 N

N

X

i=1

π(P

K

|M

K

, Y

T

, S

(i) T

),

ᅧ기서 {S

(i) T

}

N i=1

는 Θ

K

가 주어진 경우 마코프 체인 몬테 카를로 방법에서 표집된상태에 대한 N 개의 ᄑ

ᅭ본이다. 수식 (2.4)의 두 번째 항 π(Θ

|M

K

, Y

T

)는 N개의 사후표본을이용하여 다음과 같이 구할 ᄉ

ᅮ 있다.

π(Θ

K

|M

K

, Y

T

) ≈ 1 N

N

X

i=1

π(Θ

K

|M

K

, Y

T

, S

(i) T

).

(8)

3. 모의실험 및 실제 자료 분석

3절에서는 모의실험을 통해서 2절에서 제안하는 모형들에 대해서 실증 분석을 수행한다. 3.1절부 ᄐ

ᅥ 3.4절까지는 제안 모형을 적합하여 성능을 검증하고, 3.5절에서는 과학화 전투훈련 자료에 존재하 ᄂ

ᅳᆫ 전투단계의 변화점을 실증적으로 분석한다. 모의실험 자료는 구조적인 영이 발생할 확률을 결정하 느

ᆫ 로지스틱 회귀분석의 모수를 α, 포아송 회귀분석의 λ 혹은 음이항 회귀분석의 ϕ를 결정하는 모수 르

ᆯ β로 하여 3개의 공변량과 절편을 가지고 있는 조건에서 자료를 생성한다. 각 모수 θ

ij

는 i번째 상 ᄐ

ᅢ의 j번째 모수이다. 모의실험의 자료는 변화점이 Υ = {501, 1001}에서 발생하는 n = 1500개의 자 ᄅ

ᅭ를 생성한다. 모의실험 자료의 공변량은 3개이며, U(−1, 1)에서 독립적으로 생성한다. 모의실험은 ᄇ

ᅧᆫ화점의 수가 0, 1, 2, 3인 경우를 고려하여 총 20000번의 반복에서 10000번을 번인으로 제거한 표 보

ᆫ을 이용하여 사후분포를 추정한다. 추정에 사용된 사전분포는 α ∼ N (0, 0.1), β ∼ N (0, 0.1), r ∼ N

(0,∞)

(0, 0.0025)이고, 전이확률은 p

i,i+1

= 1/n = 1/1500 = 0.00067을적용한다.

3.1. 모의실험 : 허들 포아송 회귀모형의 경험적 성능 ᄋ

ᅵ 절에서는 허들 포아송회귀모형의 변화점 식별모형의 경험적 성능을 검증한다. 모의실험 자료는 ᄒ

ᅥ들포아송회귀모형에서 생성하였고, 다음과 같은모수를가진다.

α =

2 2 1 2 3 −2 2 1 2 −1 2 2

, β =

2 1 1 2 1 −1 2 1 2 −2 1 1

.

ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.1에 정리하였다. 모형선택기준에 의해 변 ᄒ

ᅪ점이 2개 있는모형을선택하였으며, 변화점의 위치는 t = 502, 1001로 실제 변화점의 위치와 비슷하 ᄀ

ᅦ 추정하였다. Figure 3.1의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변 ᄒ

ᅪ점을잘 식별한 것을 볼수 있다.

Table 3.1 Log marginal likelihood and BIC of HPCP result

Number of change point 0 1 2 3

log ML -11255.02 -6893.80 -3391.11 -5660.33

BIC 22568.55 13904.61 6957.73 11554.68

Change point - 1001 502, 1001 502, 1499, 1500

Posterior Changepoint Probabilities

Time

Density

0 500 1000 1500

0.00.20.40.60.81.0

0 500 1000 1500

0.00.20.40.60.81.0

Probability of state

Time

probability

State 1 State 2 State 3

Figure 3.1 Change point and probability of state of HPCP model with 2 change points

(9)

ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.2에 정리하였다. 모수의 추정 결과 ᄀ

ᅮ조적인 영의 경우 모수 α의 분산이 상대적으로 크게 추정되었으나 α

20

을 제외하고 95%신용구간이 ᄆ

ᅩ수의 참 값을포함하고 있으며, β의 경우 모수를비교적 정확하게 추정하였다.

Table 3.2 Estimates of HPCP model

Par True Mean SD q 0.025 q 0.975 Par True Mean SD q 0.025 q 0.975

State 1

α 10 2 2.130 0.189 1.780 2.518 β 10 2 2.025 0.018 2.005 2.048 α 11 2 2.427 0.311 1.845 3.060 β 11 1 0.969 0.028 0.943 1.026 α 12 1 1.028 0.233 0.574 1.493 β 12 1 0.952 0.020 0.915 0.994 α 13 2 2.078 0.266 1.571 2.609 β 13 2 2.009 0.025 1.979 2.033

State 2

α 20 3 2.564 0.201 2.185 2.977 β 20 1 0.994 0.006 0.989 1.000 α 21 -2 -1.557 0.278 -2.125 -1.027 β 21 -1 -1.016 0.020 -1.043 -1.011 α 22 2 1.822 0.289 1.277 2.397 β 22 2 2.003 0.006 2.000 2.014 α 23 1 0.676 0.246 0.200 1.159 β 23 1 1.003 0.004 0.996 1.005

State 3

α 30 2 2.070 0.184 1.725 2.442 β 30 2 1.967 0.017 1.939 1.981 α 31 -1 -1.463 0.259 -1.987 -0.976 β 31 -2 -2.017 0.017 -2.035 -1.990 α 32 2 1.960 0.278 1.429 2.534 β 32 1 0.984 0.026 0.961 1.040 α 33 2 1.986 0.272 1.467 2.528 β 33 1 1.029 0.022 0.995 1.067

3.2. 모의실험 : 허들 음이항 회귀모형의 경험적 성능 ᄋ

ᅵ 절에서는 허들 음이항 회귀모형의 변화점 식별모형의 경험적 성능을 검증한다. 모의실험 자료는 ᄒ

ᅥ들 음이항 회귀모형에서 생성하였고, 다음과 같은모수를가진다.

α =

2 −2 1 2 1 1 2 −1 2 −1 1 1

, β =

2 2 1 2 1 −2 2 −1 2 1 2 1

, r =

 2 1 2

.

ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.3에 정리하였다. 모형선택기준에 의해 변 ᄒ

ᅪ점이 2개 있는모형을선택하였으며, 변화점의 위치는 t = 501, 1004로 실제 변화점의 위치와 비슷하 ᄀ

ᅦ 추정하였다. Figure 3.2의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변화 ᄌ

ᆷ을잘 식별한 것을 볼수 있다.

Table 3.3 Log marginal likelihood and BIC of HNBCP result

Number of change point 0 1 2 3

log ML -5185.56 -5008.82 -4437.16 -5205.78

BIC 10436.94 10149.28 9071.77 10674.84

Change point - 1000 501, 1000 1284, 1472, 1480

ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.4에 정리하였다. 모수의 추정 결과 여

ᆼ과잉 부분의 경우 모수 α의 분산이 상대적으로 크게 추정되었지만 α

12

을 제외하고 95%신용구간이 ᄆ

ᅩ수의 참 값을포함하고 있다. β와 r값의 경우 r

2

를제외하고 비교적 정확하게 추정하였다.

(10)

Posterior Changepoint Probabilities

Time

Density

0 500 1000 1500

0.00.20.40.60.81.0

0 500 1000 1500

0.00.20.40.60.81.0

Probability of state

Time

probability

State 1 State 2 State 3

Figure 3.2 Change point and probability of state of HNBCP model with 2 change points

Table 3.4 Estimates of HNBCP model

Par True Mean SD q 0.025 q 0.975 Par True Mean SD q 0.025 q 0.975

State 1

α 10 2 1.955 0.160 1.644 2.277 β 10 2 2.112 0.111 1.895 2.350 α 11 -2 -2.436 0.264 -2.961 -1.884 β 11 2 2.004 0.083 1.846 2.178 α 12 1 1.527 0.230 1.122 2.062 β 12 1 0.952 0.069 0.815 1.091 α 13 2 2.269 0.257 1.782 2.794 β 13 2 1.984 0.075 1.835 2.131 r 1 2 1.972 0.204 1.593 2.396

State 2

α 20 1 1.089 0.136 0.844 1.366 β 20 1 1.023 0.160 0.726 1.343 α 21 1 1.407 0.219 0.968 1.767 β 21 -2 -1.977 0.153 -2.244 -1.721 α 22 2 2.192 0.253 1.749 2.709 β 22 2 2.364 0.144 2.072 2.641 α 23 -1 -1.058 0.206 -1.478 -0.702 β 23 -1 -1.005 0.152 -1.267 -0.709 r 2 1 0.777 0.148 0.515 1.073

State 3

α 30 2 2.103 0.144 1.833 2.395 β 30 2 1.995 0.084 1.823 2.160 α 31 -1 -0.687 0.225 -1.152 -0.279 β 31 1 0.989 0.069 0.849 1.118 α 32 1 1.080 0.241 0.638 1.583 β 32 2 2.061 0.068 1.924 2.191 α 33 1 1.072 0.236 0.614 1.535 β 33 1 1.084 0.067 0.957 1.225 r 3 2 1.963 0.161 1.666 2.303

3.3. 모의실험 : 영과잉 포아송 회귀모형의 경험적 성능 ᄋ

ᅵ 절에서는영과잉 포아송회귀모형의 변화점 식별모형의 경험적 성능을검증한다. 모의실험 자료는 여

ᆼ과잉 포아송회귀모형에서 생성하였으며, 다음과 같은모수를가진다.

α =

2 2 1 2 1 −2 2 1 2 −1 2 2

, β =

2 1 1 2 1 −1 2 1 2 −2 1 1

.

ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.5에 정리하였다. 주변 가능도를기준으 ᄅ

ᅩ 변화점이 3개인 모형과 BIC에 의해 변화점이 2개인 모형이 선택되었으나 BIC를기준으로 변화점 ᄋ

ᅵ 2개 있는모형을최종선택하였으며, 변화점의 위치는 t = 501, 1001로 정확하게 추정하였다. Figure 3.3의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변화점을잘 식별한 것을 볼 ᄉ

ᅮ 있다.

ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.6에 정리하였다. 모수의 추정 결과 ᄀ

ᅮ조적인 영 부분의 경우 상태 2에 해당하는 α

의 경우 분산이 상대적으로 크고, 95%신용구간이 모수 ᄋ

ᅴ 참 값을벗어나 추정이 잘 되지 않았으나, β의 경우 모수를참 값과 유사하게 추정하였다.

(11)

Table 3.5 Log marginal likelihood and BIC of ZIPCP result

Number of change point 0 1 2 3

log ML -10771.44 -6190.67 -3243.98 -3242.20

BIC 21601.39 12498.35 6663.47 6718.42

Change point - 993 501, 1001 501, 1001, 1496

Posterior Changepoint Probabilities

Time

Density

0 500 1000 1500

0.00.20.40.60.81.0

0 500 1000 1500

0.00.20.40.60.81.0

Probability of state

Time

probability

State 1 State 2 State 3

Figure 3.3 Change point and probability of state of ZIPCP model with 2 change points

Table 3.6 Estimates of ZIPCP model

Par True Mean SD q 0.025 q 0.975 Par True Mean SD q 0.025 q 0.975

State 1

α 10 2 2.153 0.197 1.786 2.557 β 10 2 1.875 0.020 1.835 1.915 α 11 2 1.991 0.337 1.363 2.676 β 11 1 1.094 0.020 1.054 1.134 α 12 1 0.908 0.291 0.333 1.480 β 12 1 1.034 0.020 0.994 1.074 α 13 2 1.940 0.266 1.316 2.608 β 13 2 2.092 0.026 2.041 2.144

State 2

α 20 1 1.423 0.225 1.016 1.911 β 20 1 0.637 0.037 0.564 0.708 α 21 -2 -2.093 0.361 -2.836 -1.407 β 21 -1 -1.284 0.038 -1.355 -1.215 α 22 2 1.173 0.373 0.433 1.887 β 22 2 2.260 0.047 2.171 2.352 α 23 1 0.224 0.333 -0.446 0.862 β 23 1 1.045 0.036 0.975 1.117

State 3

α 30 2 2.343 0.235 1.914 2.838 β 30 2 1.798 0.020 1.756 1.839 α 31 -1 -0.259 0.320 -0.888 0.375 β 31 -2 -2.065 0.027 -2.119 -2.012 α 32 2 2.236 0.360 1.552 2.953 β 32 1 1.146 0.021 1.104 1.188 α 33 2 2.046 0.359 1.378 2.782 β 33 1 1.099 0.020 1.058 1.139

3.4. 모의실험 : 영과잉 음이항 회귀모형의 경험적 성능 ᄋ

ᅵ 절에서는영과잉 음이항 회귀모형의 변화점 식별모형의 경험적 성능을검증한다. 모의실험 자료는 여

ᆼ과잉 음이항 회귀모형에서 생성하였고, 다음과 같은모수를가진다.

α =

2 −2 1 2 3 1 2 1 2 −1 1 1

, β =

2 2 1 2 1 −2 2 1 3 −1 1 1

, r =

 2 1 3

. ᄆ

ᅩ의실험 결과 모형선택기준인 주변 가능도와 BIC를 Table 3.7에 정리하였다. 모형선택기준에 의해 변 ᄒ

ᅪ점이 2개 있는모형을선택하였으며, 변화점의 위치는 t = 500, 1002로 실제 변화점의 위치와 비슷하 ᄀ

ᅦ 추정하였다. Figure 3.4의 좌측은변화점의 발생확률, 우측은각 상태에 속할확률이며, 모형이 변화 ᄌ

ᆷ을잘 식별한 것을 볼수 있다.

ᅧᆫ화점의 수가 2개인 조건에서 각 모수를추정한 결과는 Table 3.8에 정리하였다. 영과잉 부분의 경 ᄋ

ᅮ 모수 α의 분산이 크게 추정되었고, 특히 상태 2의 α

의 분산이 매우 크게 추정되었으나 상태 1과

수치

Figure 3.1 Change point and probability of state of HPCP model with 2 change points
Table 3.2 Estimates of HPCP model
Figure 3.2 Change point and probability of state of HNBCP model with 2 change points
Table 3.6 Estimates of ZIPCP model
+5

참조

관련 문서