2019, 30
(2)
,385–399
강수량의 계절 예측을 위한 베이지안 앙상블 MOS방법의 비교연구
†
ᄌ
ᅩ성일
1
·이상인2
1전북대학교 통계학과 (응용통계연구소) ·2충남대학교 정보통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 11ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄀ ᅵᄒ ᅮᄋ ᅨᄎ ᅳ ᆨ (climate forecasts)ᄋ ᅦ ᄋ ᅵ ᆻᄋ ᅥᄉ ᅥ ᄌ ᅮᄅ ᅩ ᄉ ᅡᄋ ᅭ ᆼ ᄃ ᅬᄂ ᅳ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄒ ᅮᄎ ᅥᄅ ᅵ (statistical post-processing)ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄀ ᅥ ᆷᄐ ᅩᄒ ᅡ ᆫᄃ ᅡ. ᄐ ᅳ ᆨ ᄒ ᅵ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨ (Bayesian statistics)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄀ ᅵᄒ ᅮᄋ ᅨᄎ ᅳ ᆨ ᄋ
ᅦᄉ ᅥ ᄌ ᅮᄅ ᅩ ᄉ ᅡᄋ ᅭ ᆼ ᄃ ᅬᄂ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄉ ᅥ ᆫᄒ ᅧ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼ (Bayesian linear regression)ᄀ ᅪ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼ ᄑ ᅧ ᆼᄀ ᅲ ᆫ ᄒ ᅪ (Bayesian model averaging) ᄃ ᅮ ᄀ ᅡᄌ ᅵ ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ MOS (ensemble model output statistics)ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄉ ᅥ ᆯ ᄆ ᅧ
ᆼᄒ ᅡᄀ ᅩ ᄃ ᅵᄅ ᅵᄏ ᅳᄅ ᅦ ᄀ ᅪᄌ ᅥ ᆼ ᄉ ᅡᄌ ᅥ ᆫᄇ ᅮ ᆫ ᄑ ᅩ (Dirichlet process prior)ᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄇ ᅵᄆ ᅩᄉ ᅮ (nonparametric) ᄇ ᅦᄋ ᅵᄌ ᅵ ᄋ
ᅡ ᆫ ᄌ ᅥ ᆸᄀ ᅳ ᆫᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄉ ᅡ ᆯᄑ ᅧᄇ ᅩ ᆫ ᄃ ᅡ. ᄉ ᅦ ᄀ ᅡᄌ ᅵ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄇ ᅡᄐ ᅡ ᆼᄋ ᅳᄅ ᅩ ᄉ ᅡᄒ ᅮᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅳ ᆯ ᄋ ᅲᄃ ᅩᄒ ᅡᄀ ᅩ ᄆ ᅡᄏ ᅩᄑ ᅳ ᄎ ᅦᄋ ᅵ ᆫ ᄆ
ᅩ ᆫ ᄐ ᅦ ᄏ ᅡᄅ ᅳ ᆯ ᄅ ᅩ (Markov chain Monte Carlo) ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄉ ᅡᄒ ᅮᄎ ᅮᄅ ᅩ ᆫᄋ ᅳ ᆯ ᄉ ᅵ ᆯᄉ ᅵᄒ ᅡ ᆫᄃ ᅡ. ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄌ ᅵᄋ ᅧ ᆨᄋ ᅴ ᄀ ᅡ ᆼᄉ ᅮᄅ ᅣ ᆼ ᄌ
ᅡᄅ ᅭᄅ ᅩ ᄇ ᅮᄐ ᅥ leave-one-out ᄀ ᅭᄎ ᅡᄐ ᅡᄃ ᅡ ᆼᄉ ᅥ ᆼ (cross-validation) ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅡ ᆫᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡ ᆫ ᄃ
ᅡ. ᄆ ᅩᄋ ᅴ ᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅴ ᄀ ᅧ ᆯᄀ ᅪ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄒ ᅮᄎ ᅥᄅ ᅵ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅵ ᄋ ᅵ ᆯᄇ ᅡ ᆫ ᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄇ ᅩᄃ ᅡ ᄋ ᅮᄉ ᅮᄒ ᅡ ᆫ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅵᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄒ ᅪ
ᆨ ᄋ ᅵ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅡ ᆼᄉ ᅮᄅ ᅣ ᆼ ᄋ ᅨᄎ ᅳ ᆨ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼ ᄑ ᅧ ᆼᄀ ᅲ ᆫ ᄒ ᅪ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄉ ᅥ ᆫᄒ ᅧ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼ, ᄉ ᅥ ᆫᄒ ᅧ ᆼ ᄌ ᅩ ᆼᄉ ᅩ ᆨ ᄃ ᅵᄅ ᅵᄏ ᅳᄅ ᅦ ᄀ ᅪᄌ ᅥ ᆼ ᄆ ᅩ ᄒ ᅧ
ᆼ, ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ model output statistics.
1. 서론 ᄀ
ᅡᆼ수량, 온도등 기후예측에 있어서 널리 사용되는 모형에는 크게 세 가지가 있다. 첫째는 전 지구 ᄀ
ᅵ후 모형인 일반 순환모형 (general circulation model)만을 사용하는 결정론적 모형 (deterministic model)이고 둘째는 시계열 방법 (time series analysis)등 순수하게 통계적 방법만을사용하는 확률적 ᄆ
ᅩ형 (probabilistic model), 그리고 마지막으로 물리적 모형인 일반 순환모형에서 나온예측치와 실제 과
ᆫ측치들간에 함수관계를구축하여 예측을 실시 하는 MOS (model output statistics) 방법이다 (Fig- ure 1.1). 결정론적 모형을 이용한 기후예측은 일반적으로 편차 (bias)가 발생하고 과소산포 (under- dispersion)가 되는경향 (Hamill와 Colucci, 1997)이 있는반면, 확률적 모형은짧은기간의 예측은정 화
ᆨ도가 높지만 긴 기간의 예측은정확도가 낮아진다는것이 알려져 있다. 따라서 최근에는 MOS방법이 ᄌ
ᅮ로 사용되어왔다 (Jo 등, 2012; Lim 등, 2014).
†
ᄌ ᅩᄉ ᅥ ᆼᄋ ᅵ ᆯᄋ ᅴ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅦᄉ ᅥ ᄌ ᅵᄋ ᅯ ᆫᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ (NRF-2017R1D1A3B03035235).
ᄋ
ᅵᄉ ᅡ ᆼᄋ ᅵ ᆫᄋ ᅴ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅦᄉ ᅥ ᄌ ᅵᄋ ᅯ ᆫᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ (NRF-2017R1C1B2010113).
1
(54896) ᄌ ᅥ ᆫᄅ ᅡᄇ ᅮ ᆨ ᄃ ᅩ ᄌ ᅥ ᆫᄌ ᅮᄉ ᅵ ᄃ ᅥ ᆨᄌ ᅵ ᆫᄀ ᅮ ᄇ ᅢ ᆨᄌ ᅦᄃ ᅢᄅ ᅩ 567, ᄌ ᅥ ᆫᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ (ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄋ ᅧ ᆫᄀ ᅮᄉ ᅩ), ᄌ ᅩᄀ ᅭᄉ ᅮ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (34134) ᄃ ᅢᄌ ᅥ ᆫᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄋ ᅲᄉ ᅥ ᆼᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 99, ᄎ ᅮ ᆼ ᄂ ᅡ ᆷᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
Figure 1.1 Climate forecast approach using model output statistics
MOS방법을기초로하는 기후예측 모형은 많은 문헌에서 개발되었다. 예를 들어, Kim 등 (2004)는 ᄋ
ᅧ러 일반 순환모형에서 나온예측치들을다중선형 회귀모형 (multiple linear regression model)을이 ᄋ
ᅭ
ᆼ하여 결합하는 superensemble모형을개발하였고, Lim 등 (2012)은관측치와 일반 순환모형에서 나 오
ᆫ예측치들을각각 독립성분분석 (independent component analysis)를 통해 차원을 축소후 정준상관 ᄇ
ᅮᆫ석 (canonical correlation analysis)을 실시하여 기후예측을하는모형을개발하였다. 이 외에, Jo 등 (2012)는여름철 강수량 (precipitation)예측에 있어서 베이지안 회귀모형을이용한 모형을개발하였다.
보
ᆫ 논문에서는 MOS방법 중하나인 앙상블 MOS (ensemble model output statistics; Wilks, 2011)방 버
ᆸ을 소개한다. 특히, 베이지안 통계학을이용한 두 가지 모수적 (parametric) 앙상블 MOS방법을 소 ᄀ
ᅢ하고, 비모수 앙상블방법으로의확장을살펴보고자 한다.
ᄋ
ᅡᆼ상블 MOS (ensemble model output statistics)방법은 기존의 MOS방법과 달리 하나의 일반 순 화
ᆫ모형에서 초기조건 (initial condition)에 따라 나오는 여러개의 앙상블 예측값들을 통계적인 모형을 ᄋ
ᅵ용하여 결합함으로써 예측하는 방법으로 최근 널리 사용되고 있으며 (Schuhen 등, 2012; Baran과 M¨oller, 2017), 대표적인 모수적 베이지안 통계학 방법으로는 베이지안 모형 평균화 (Bayesian model averaging)와 베이지안 선형회귀모형 (Bayesian linear regression model) 등이 있다.
ᄇ
ᅦ이지안 모형 평균화는 Leamer (1978)에 의해 다중통계모형 (multiple statistical model)의 추 ᄅ
ᅩᆫ (inference)및 예측 (prediction)을 위해서 처음 제안된 모형으로, Madigan과 Raftery (1994)와 Hoeting 등 (1999)에 의해 선형회귀모형과 관련된 모형에서 널리 사용되었다. 최근 Raftery 등 (2005)와 Sloughter 등 (2007, 2010, 2013)는 베이지안 모형 평균화를 앙상블 MOS방법으로써 기 ᄉ
ᅡᆼ예측 (weather forecasting)에 사용하였다. 베이지안 모형 평균화는 예측모형의 불확실성 (uncer- tainty)을반영하고 (Raftery 등, 2005), 다양한 이론적인 최적화 (optimality)특성과 예측의 측면에서 서
ᆼ능이 좋다는 것이 알려져 있다 (Raftery와 Zheng, 2003). 베이지안 선형회귀모형은 가장 기본적인 겨
ᆯ합 모형으로 베이지안 통계학관점의 superensemble 방법으로 볼 수 있으며, 장점은모형의 적합과 ᄒ
ᅢ석이 쉽다는것이다.
ᄇ
ᅵ모수 베이지안 앙상블 MOS방법으로의확장을위해 본 논문에서는베이지안 선형회귀모형의 모수 ᄋ
ᅦ 비모수 사전분포 (nonparametric prior distribution)인 디리크레 과정 (Dirichlet process)을사용한 ᄃ
ᅡ. 디리크레 과정은 Ferguson (1973)과 Antoniak (1974)에 의해 제안된무한차원의 사전분포로 많은 ᄇ
ᅮᆫ야에서 가장 널리 사용되고 있으며, 그 성능이 입증되었다 (M¨uller와 Rodr´ıguez, 2013).
보
ᆫ 논문의 나머지 부분은다음과 같이 구성된다. 먼저 2절에서 널리 사용되는두 가지 모수적 베이지 ᄋ
ᅡᆫ 앙상블 MOS모형과 비모수 베이지안 앙상블 MOS모형에 대해 설명하고 세 가지 모형들의 성능을비 ᄀ
ᅭ하기 위한 측도를 3절에서 제시하였다. 그 다음 4절에서 한국지역의 강수량 자료를 분석을 통해 성 ᄂ
ᅳ
ᆼ을비교하고 마지막으로 5절에서 결론에 대해 기술하였다.
2. 베이지안 앙상블 MOS모형 ᄋ
ᅵ 절에서는베이지안 앙상블 MOS방법으로써 널리 사용되는베이지안 선형 회귀모형과 베이지안 모 혀
ᆼ 평균화에 대해 논하고, 디리크레 과정을사전분포로 하는비모수 베이지안 모형에 대해서도 살펴 보 ᄃ
ᅩ록한다.
2.1. 베이지안 선형 회귀모형 ᄉ
ᅥᆫ형회귀모형 (linear regression model)은가장 널리 사용되는앙상블 MOS방법 (Wilks, 2011)으로 ᄌ
ᅵ역 s에서 t시점의 실제 관측치 yt,s와 일반순환모형로 부터 나온 s지역 t시점의 K개 앙상블예측치 xt,s= (xts1, . . . , xtsK)가 주어졌을때 아래의관계식을이용하여 정의된다.
yt,s= βs0+ βs1xts1+ . . . + βsKxtsK+ ϵt,s, (2.1) ᄋ
ᅧ기서 ϵt,s는평균이 0이고 분산이 σ2s인 가우시안 분포 (Gaussian distribution)를따른다. 선형회귀모 혀
ᆼ (2.1)은다음과 같이 행렬을이용하여 나타낼 수 있다.
ys= Xsβs+ ϵs, ϵs∼ N(0, σs2I), (2.2) ᄋ
ᅧ기서 ys= (y1,s, . . . , yT ,s)′, βs= (βs0, βs1, . . . , βsK)′, ϵs= (ϵ1,s, . . . , ϵT ,s)′이고
Xs=
1 x1s1 . . . x1sK
1 x2s1 . . . x2sK
..
. ... ... ... 1 xT s1 . . . xT sK
.
ᄋ
ᅱ 모형 (2.2)으로 부터 베이지안 선형모형은미지의 모수 (unknown parameter)에 다음의 사전분포를 서
ᆯ정함으로써 정의된다.
βs|κ2s,0∼ N(0, κ2s,0I), κ2s0|νs,κ, τs,κ∼ IGa(νs,κ, τs,κ),
σ2s|νs,0, τs,0∼ IGa(νs,0, τs,0),
(2.3)
ᄋ
ᅧ기서 초모수 (hyper-parameter) νs,κ, τs,κ과 νs,0, τs,0은양의 값을가지는고정된상수이고, IGa(a, b)는 펴
ᆼ균과 분산을 각각 b/(a − 1)와 b2/{(a − 1)2(a − 2)}로 가지는 역-감마 분포 (inverse gamma dis- tribution)를 나타낸다. 참고로 사전분포 (2.3)을 이용하는베이지안 선형모형은 베이지안 능형회귀모 혀
ᆼ (ridge regression model)로 알려져 있다. 좀 더 자세한 사항은 Delsole (2007)와 Mallick and Yi (2013)에 설명되어 있다. 일반적으로 베이지안 선형모형은계층적 모형을이용하여 아래와 같이 나타낸 ᄃ
ᅡ.
ys|Xs, βs, σ2s∼ N(Xsβs, σ2sI), βs|κ2s,0∼ N(0, κ2s,0I), κ2s,0|νs,κ, τs,κ∼ IGa(νs,κ, τs,κ),
σs2|νs,0, τs,0∼ IGa(νs,0, τs,0).
(2.4)
ᄆ
ᅩ형 (2.4)로 부터 지역 s에서 T + 1시점의 예측 (forecasting)분포는 다음과 같이 몬테 칼로 적분 (Monte carlo integration)을이용하여 계산할 수 있다.
p(ys,T +1|xs,T +1, ys) = Z
p(ys,T +1|xs,T +1, βs, σ2s, ys)π(βs, σs2|ys)dβsdσs2
= Z
p(ys,T +1|xs,T +1, βs, σ2s)π(βs, σs2|ys)dβsdσ2s
≈ 1 B
B
X
b=1
p(ys,T +1|xs,T +1, β(b)s , σs2(b)),
(2.5)
ᄋ
ᅧ기서 p(ys,T +1|xs,T +1, β(b)s , σ2(b)s ) = N(x′s,T +1β(b)s , σs2(b))이고 (β(b)s , σs2(b)), b = 1, . . . , B는다음의 와
ᆫ전 조건부 사후분포 (full conditional posterior distribution)로 부터 추출된 B개의 사후표본 (poste- rior samples)이다.
π(βs|σs2, k2s,0, ys) ∼ Nn
σ−2s X′sXs+ ks,0−2Ip+1−1
X′sys/σ2s, σ−2s X′sXs+ ks,0−2Ip+1−1o , π(σs2|βs, ys) ∼ IGan
νs,0+ T /2, τs,0+ (ys− X′sβs)′(ys− X′sβs)/2o , π(ks,02 |βs, ys) ∼ IGan
νs,k+ (p + 1)/2, τs,k+ β′sβs/2o .
2.2. 베이지안 모형 평균화 ᄀ
ᅵ후예측을위한 베이지안 모형 평균화는 일반순환모형으로 부터 나온 K개의 앙상블예측치 (모형) ᄃ
ᅳ
ᆯ과 실제관측치와의관계를 혼합모형 (mixture model)을사용하여 다음과 같이 정의한다.
p(yts|xts1, . . . , xtsK) =
K
X
j=1
pjfj(yts|xtsj), (2.6) ᄋ
ᅧ기서 fj(yts|xtsj)는 앙상블 예측치가 주어졌을 때의 연속형 (continuous)의 조건부 확률밀도함수 (conditional probability density function)이고 pj는 j번째 앙상블예측치가 최량모형 (best model)이 ᄃ
ᅬ는 확률로써 0보다큰값을가지며 K개의 합이 1이 되는 값이다. 즉, PK
j=1pj = 1. 본 논문에서는 ᄌ
ᅩ건부 확률밀도함수로 평균과 분산을 각각 β0j + β0jxtsj와 σ2로 가지는 가우시안 분포를 사용한다.
ᄌ ᅳᆨ,
yts|xtsj∼ N(β0j+ β0jxtsj, σ2), t = 1, . . . , T, s = 1, . . . , n.
ᄉ
ᅡ후분포 계산을위하여 베이지안 모형 평균화 (2.6)는계층적 모형으로 부터 다음과 같이 표현할 수 이
ᆻ고
yt,s|x, p, β0, β1, σ2∼
k
X
j=1
pjN(β0j+ β1jxtsj, σ2),
p|w = (w1, . . . , wK) ∼ Dirichlet(w), β0j|µβ0j, κ2β0j ∼ N(µβ0j, κ2β0j), β1j|µβ1j, κ2β1j ∼ N(µβ1j, κ2β1j),
σ2|ν0, τ0∼ IG(ν0, τ0),
(2.7)