2020, 31
(2)
,273–288
의사결정나무 기반 기법을 이용한 가뭄지수 예측
†
기
ᆷ영은
1
·이경은2
· 김광섭3
1한국정보화진흥원 정책본부 AI·미래전략센터 · 2경북대학교 통계학과 ·3경북대학교 토목공학과
ᄌ ᅥ
ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 30ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 11ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ
요 약
ᄎ
ᅬ ᄀ ᅳ ᆫ ᄃ ᅳ ᆯ ᄋ ᅥ, ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅡ ᆼᄉ ᅮ ᄑ ᅢᄐ ᅥ ᆫᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄀ ᅡᄆ ᅮ ᆷ ᄋ ᅴ ᄉ ᅵ ᆷᄃ ᅩᄋ ᅪ ᄇ ᅵ ᆫᄃ ᅩᄀ ᅡ ᄀ ᅡ ᆼᄒ ᅢᄌ ᅵᄂ ᅳ ᆫ ᄉ ᅡ ᆼ ᄒ ᅪ ᆼᄋ ᅦᄉ ᅥ ᄀ ᅡᄆ ᅮ ᆷ ᄋ ᅨ ᄎ
ᅳ
ᆨ ᄋ ᅦ ᄀ ᅪ ᆫ ᄒ ᅡ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅡ ᄌ ᅥ ᆫ ᄉ ᅦᄀ ᅨᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄒ ᅪ ᆯ ᄇ ᅡ ᆯᄒ ᅵ ᄌ ᅵ ᆫᄒ ᅢ ᆼᄃ ᅬᄀ ᅩ ᄋ ᅵ ᆻᄌ ᅵᄆ ᅡ ᆫ, ᄉ ᅵᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄇ ᅧ ᆫᄃ ᅩ ᆼ ᄋ ᅵ ᄇ ᅩ ᆨ ᄌ ᅡ ᆸᄒ ᅡ ᆫ ᄀ ᅡᄆ ᅮ ᆷ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄋ ᅴ ᄐ ᅳ ᆨ ᄉ ᅥ
ᆼᄋ ᅳᄅ ᅩ ᄃ ᅡ ᆫᄉ ᅮ ᆫ ᄒ ᅡ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄆ ᅩᄃ ᅦ ᆯᄅ ᅩ ᄋ ᅨᄎ ᅳ ᆨ ᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦᄂ ᅳ ᆫ ᄒ ᅡ ᆫᄀ ᅨᄀ ᅡ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅵᄉ ᅡ ᆼ ᄀ ᅡᄆ ᅮ ᆷ ᄌ ᅵᄉ ᅮᄋ ᅵ ᆫ ᄑ ᅭᄌ ᅮ ᆫ ᄀ ᅡ ᆼᄉ ᅮᄌ ᅵ ᄉ
ᅮ SPI-6ᄋ ᅪ ᄉ ᅦᄀ ᅨᄀ ᅵᄒ ᅮᄌ ᅵᄉ ᅮᄋ ᅪ ᄀ ᅡ ᇀᄋ ᅳ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄃ ᅳ ᆯ ᄉ ᅡᄋ ᅵᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡᄀ ᅩ, ᄋ ᅴᄉ ᅡᄀ ᅧ ᆯᄌ ᅥ ᆼᄂ ᅡᄆ ᅮ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅴ ᄀ
ᅵᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅡᄆ ᅮ ᆷ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅮᄉ ᅥ ᆼᄒ ᅢ ᆻᄃ ᅡ. ᄀ ᅪᄃ ᅢᄌ ᅥ ᆨᄒ ᅡ ᆸᄆ ᅮ ᆫ ᄌ ᅦᄅ ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ ᄀ ᅵᄇ ᅥ ᆸ (ensemble method)ᄀ ᅪ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄀ ᅡᄇ ᅥ ᆸ ᄒ ᅬᄀ ᅱ ᄂ ᅡᄆ ᅮ ᄆ ᅩᄒ ᅧ ᆼ (bayesian additive regression trees model)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ
ᅡᄆ ᅮ ᆷ ᄌ ᅵᄉ ᅮ ᄋ ᅨᄎ ᅳ ᆨᄋ ᅳ ᆯ ᄀ ᅢᄉ ᅥ ᆫᄒ ᅢ ᆻᄋ ᅳᄆ ᅧ, 1ᄀ ᅢᄋ ᅯ ᆯ ᄒ ᅮᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩᄂ ᅳ ᆫ “ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄀ ᅡᄇ ᅥ ᆸ ᄒ ᅬᄀ ᅱ ᄂ ᅡᄆ ᅮ ᄆ ᅩᄒ ᅧ ᆼ”ᄋ ᅵ, 2-3ᄀ ᅢ ᄋ
ᅯ
ᆯ ᄒ ᅮᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩᄂ ᅳ ᆫ ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅵ ᆫ “ᄇ ᅢᄀ ᅵ ᆼ (bagging)”ᄋ ᅵ ᄆ ᅩᄒ ᅧ ᆼ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄉ ᅥ ᆼᄋ ᅦᄉ ᅥ ᄋ ᅮᄉ ᅮᄒ ᅡᄀ ᅦ ᄂ ᅡᄐ ᅡᄂ ᅡ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅡᄆ ᅮ ᆷ ᄋ ᅨᄎ ᅳ ᆨ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄀ ᅡᄇ ᅥ ᆸ ᄒ ᅬᄀ ᅱ ᄂ ᅡᄆ ᅮ, ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ ᄀ ᅵᄇ ᅥ ᆸ, ᄋ ᅴᄉ ᅡᄀ ᅧ ᆯᄌ ᅥ ᆼᄂ ᅡᄆ ᅮ, SPI-6.
1. 서론 ᄌ
ᅥᆫ 세계적으로 지구온난화의 지역적 영향으로 인해 홍수와 가뭄과 같은극한 수문현상의 발생이 증가 ᄒ
ᅡ는가운데 심각한 경제적 및 인명 피해를 일으키는가뭄은우리가 해결해야 할 가장 중요한 수재해의 무
ᆫ제 중하나이다. 최근 10년간극심한 가뭄의 발생은 2010-2011년에 걸쳐 발생한 동아시아 지역의 가 ᄆ
ᅮ
ᆷ을포함하여 2012-2015년 사이에 발생한 캘리포니아 가뭄 등넓은지역에 걸쳐 장시간에 영향을끼치 느
ᆫ것으로 나타났다 (Dutra 등, 2013). 최근우리나라에서 발생한 가뭄은 1973년 기상관측이후 5-7년 ᄌ
ᅮ기로 전국적으로 반복되는 특성에서 벗어나 기후변화로 지역 단위로 가뭄발생 빈도가 증가하고 있다.
ᄐ ᅳ
ᆨ히, 2015년에는 42년 만에 사상 최악의 가뭄이 발생하였으며, 이후 약 10년 주기를가진 우리나라 장 ᄆ
ᅡ 강수량 패턴의 변화로 인해 2018년에는장마가 일찍 종료된후 이어진 폭염 현상으로 인해 가뭄, 태 푸
ᆼ, 국지적 집중호우와 홍수 등을 동시다발적으로 겪었다. 또한,극심한 가뭄은작물생산과 용수공급에 시
ᆷ각한 영향을끼쳐 농업생산과 생태계에 막대한 피해를 일으킬 수 있다. 따라서 기상이변으로 인한 빈 ᄇ
ᅥᆫ한 기상재해에 대응하기 위해 체계적인 가뭄연구가 필요하며 가뭄에 대한 적절한 사전 경보를가능하 ᄀ
ᅦ 하는가뭄의 예측개선관련 연구는 필수적이라고 할 수 있다.
ᄀ
ᅡ뭄극복을 위한 연구는 전 세계적으로 활발히 수행되고 있으며, 대표적인 선행연구로 Mishra 와 Desai (2005)는시간 단위가 서로 다른표준강수지수 (standardized precipitation index; SPI)를자기
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫ( ᄌ ᅥᄉ ᅥ)ᄋ ᅳ ᆫ 2017 ᄒ ᅡ ᆨᄂ ᅧ ᆫᄃ ᅩ ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅧ ᆫ ᄀ ᅭᄉ ᅮ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄋ ᅦ ᄋ ᅴᄒ ᅡᄋ ᅧ ᄋ ᅧ ᆫᄀ ᅮᄃ ᅬᄋ ᅥ ᆻᄋ ᅳᄆ ᅧ ᄀ ᅵ ᆷᄋ ᅧ ᆼᄋ ᅳ ᆫ ᄋ ᅴ ᄉ ᅥ ᆨᄉ ᅡᄒ ᅡ ᆨᄋ ᅱ ᄂ
ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅴ ᄋ ᅵ ᆯᄇ ᅮᄅ ᅳ ᆯ ᄌ ᅥ ᆼᄅ ᅵᄒ ᅡ ᆫ ᄂ ᅢᄋ ᅭ ᆼᄋ ᅵ ᆷ.
1
(41068) ᄃ ᅢᄀ ᅮᄉ ᅵ ᄃ ᅩ ᆼ ᄀ ᅮ ᄉ ᅵ ᆫᄉ ᅥᄃ ᅩ ᆼ ᄎ ᅥ ᆷᄃ ᅡ ᆫᄅ ᅩ 53, ᄒ ᅡ ᆫᄀ ᅮ ᆨᄌ ᅥ ᆼᄇ ᅩᄒ ᅪᄌ ᅵ ᆫᄒ ᅳ ᆼᄋ ᅯ ᆫ ᄌ ᅥ ᆼᄎ ᅢ ᆨᄇ ᅩ ᆫ ᄇ ᅮ AI·ᄆ ᅵᄅ ᅢᄌ ᅥ ᆫᄅ ᅣ ᆨᄉ ᅦ ᆫᄐ ᅥ, ᄌ ᅮᄋ ᅵ ᆷᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ .
2
(41566) ᄃ ᅢᄀ ᅮᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄉ ᅡ ᆫᄀ ᅧ ᆨᄃ ᅩ ᆼ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80, ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.
3
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (41566) ᄃ ᅢᄀ ᅮᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄉ ᅡ ᆫᄀ ᅧ ᆨᄃ ᅩ ᆼ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80, ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩᄆ ᅩ ᆨᄀ ᅩ ᆼ ᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄒ
ᅬ귀누적이동평균모형 (autoregressive integrated moving average model)을적용하여 3개월간의 표 주
ᆫ강수지수 보다 6개월간의 표준강수지수의 예측이 우수함을 보이며 장시간의 가뭄예측 모형을 개선 ᄒ
ᅡ였다. Hwang 와 Carbone (2009) 은 마르코프 체인 모형 (markov chain model)을 기반으로 조건 ᄇ
ᅮ 재 샘플링 기법을 적용하여 1개월 전에 대한 표준강수지수의 예측을 개선하는 방법을 제시하였다.
Bennett 등 (2016) 은베이지안 결합확률분포 모형을기반으로 사후분포를추출하는 혼성 모형을제안 ᄒ
ᅡ며 표준강수지수 예측의 정확도를 높였다. 국내에서도 신경망 기법, 앙상블기법 등기계학습을적용 ᄒ
ᅡᆫ 가뭄예측의 개선을시도하였으며, 그 밖에 시공간 모형을적용하여 가뭄변동의 패턴과 예측시나리 ᄋ
ᅩ를제시하는 등다양한 연구가 이루어지고 있다.
이
ᆯ반적으로 현재까지 개발된 가뭄 예측 기법들은 통계적 모형 (statistical model), 동적 모형 (dy- namical model), 혼성 모형 (hybrid model)으로 구분된다. 통계적 모형은기후 지표들,지역적 기상 변 ᄉ
ᅮ들, 지표의 상태 등잠재적 예측변수들과 가뭄지표 사이의관계를파악하기 위해 사용된다. 동적 모 혀
ᆼ은 농업과관련된수문학 모형으로활용되는 일반 순환모형 (general circulation model)로부터 시간 ᄋ
ᅦ 따른변화에관심으로 계절적 기후 예측을하는것과관련이 있다. 대상 유역 내에서의 장시간의 가 ᄆ
ᅮ
ᆷ예상 경보 시간이 요구될때는관측 및 동적 모형에서 생산된 광역의 공간 정보와의 상관관계를설정 ᄒ
ᅡ고, 광역의 입력자료와 대상 유역 가뭄정보의 상관관계에 대한 통계적 모형화의 연계가 필요하다. 혼 서
ᆼ 모형은 통계적 모형과 동적 모형을결합한 형태로 일반 순환모형의 편의 (bias)를 줄이고 선형결합 (linear combination),베이지안 분포 (bayesian distribution) 등다양한 기법들과 함께 결합하여 예측 ᄋ
ᅴ 정확도를 높이는방법이다.
보
ᆫ 연구의 목적은장·단기 강수 정보를 토대로 기상학적 가뭄의 정도를나타내는표준강수지수 예측 으
ᆯ개선하는 것으로 시공간적 변동이 복잡하고 비선형성이 강한 가뭄발생의 패턴을고려하는 장기 표 ᄌ
ᅮᆫ강수지수 예측 모형을 개발하고자 한다. 개발 모형은 의사결정나무 모형 (decision tree model) 기 ᄇ
ᅡᆫ으로 강수자료의 비선형성을고려하여 가법 회귀 모형 (additive regression model)에 베이지안 기법 (bayesian method)을연결한 혼성 모형으로 베이지안 가법 회귀 나무 모형 (bayesian additive regres- sion trees model)을 적용하였다. 비교모형으로 의사결정나무 기법과 앙상블 기법을 이용하여 낙동강 ᄋ
ᅲ역 내 20개 지점 (거제, 거창, 구미, 남해, 대구, 문경, 밀양, 부산, 산청, 영덕, 영주, 영천, 울산, 울진, ᄋ
ᅴ성, 진주, 태백, 통영, 포항, 합천)에 대한 표준강수지수 예측에 적용하여 모형 성능을평가하였다.
2. 분석 자료 및 방법
2.1. 입력자료 보
ᆫ연구에서는관측기간의 통일성을위해서 낙동강 유역에 기후지수가관측가능한 24개 지점에 대 ᄒ
ᅢ 1974년 1월부터 2017년 6월까지 총 522개월간의 자료를활용하였다. 또한, 낙동강 유역 내 24개 지 ᄌ
ᅥ
ᆷ 중관측기간이 상대적으로 짧은 4개 지점 (마산, 봉화, 상주, 안동)를제외한 나머지 20개 지점 (거 ᄌ
ᅦ, 거창, 구미, 남해, 대구, 문경, 밀양, 부산, 산청, 영덕, 영주, 영천, 울산, 울진, 의성, 진주, 태백, 통 여
ᆼ, 포항, 합천)을대상으로 분석하였다 (Figure 2.1).
ᄌ ᅩ
ᆼ속변수는가뭄연구에 대해서 전 세계적으로 가장 널리 사용되고 있는가뭄지수인 표준강수지수 중 과
ᆫ측지점별 시간단위 강수부족량을 6개월 단위로 계산한 가뭄지수로 SPI-6를사용하였다. 그리고 독립 ᄇ
ᅧᆫ수로는세계기상기구 (world meteorological organization; WMO)에서 제공하는세계기후지수 자료 르
ᆯ활용하여 23개의 세계기후지수 (Table 2.1 참고)를사용하였으며, 추가적으로 월별 표준강수지수, 기 오
ᆫ,강수량, 강수일수, 기온평년값, 강수 평년값을이용하였다.
Figure 2.1 The map for the 24 observation sites in the nak-dong river basin
Table 2.1 Input data of world climate index
World climate index Description
NP North pacific pattern
WP Western pacific index
PNA Pacific north american index
TNA Tropical northern atlantic index TSA Tropical southern atlantic index
AO Antarctic oscillation
AMO Atlantic multidecadal oscillation
BEST Bivariate ENSO timeseries
NAO North atlantic oscillation
MEI Multivariate ENSO Index
PDO Pacific decadal oscillation
QBO Quasi-biennial oscillation
SOI Southern oscillation Index
NINO12 Extreme eastern tropical pacific SST NINO3 Eastern tropical pacific SST NINO4 Central tropical pacific SST NINO34 East central tropical pacific SST
ONI Oceanic nino index
TNI Trans-nino index
AMM Atlantic meridional mode
WHWP Western hemisphere warm pool
SOLAR Solar flux
GMLOT Global mean land/ocean temperature index
2.2. 의사결정나무 모형 ᄇ
ᅩᆫ 연구에서는개발 모형을 구축하는 방법 중 하나로 의사결정나무 기법을활용한다. 의사결정나무 느
ᆫ 나무의 생성을기반으로 출력변수의 값에 따라 입력변수의 공간을 다수의 계층으로 나누고, 각 계 ᄎ
ᅳ
ᆼ에 대한 출력변수의 최빈값이나 평균 등을취함으로써 예측을수행하는방법이다. 즉, 의사결정나무 느
ᆫ범주형 (분류)과 수치형 (예측) 출력변수에 모두 사용가능하다. 의사결정나무는하나의 나무구조를