가. 선형통계모형의 개요
중위도 지역의 역학모형의 예측 정확도가 높지 않기 때문에 통계모형은 계절예측을 하기 위한 보조적인 방법으로 이용되어 왔다(예, Kang et al., 2002). 특히, 우리나라를 포함하는 중위도 지역의 계절예측을 위한 역학모형의 예측성은 물리과정에 대한 이해의 부족 및 부적절한 물리과정의 적용 때문에 크게 떨어진다. 그렇지만, 통계모형을 이용한다면, 물리과정을 정확히 이해하고 있지 않다고 하더라도 예측인자가 적절하게 선택된다면 어느 정도 예측성을 확보할 수 있다. 통계모형은 모집단으로부터 관측자료 혹은 예측자료를 생성하는 모형이며, 그 방법에 따라 유사법(analog method), 시계열모형, 다중회귀모형, 정준상관분석모형, 그리고 인공신경망모형이 있다. 유사법은 합성도 혹은 군집분석 방법을 통해 과거 유사한 경우를 이용한 통계적 모델로서 과거에 많이 쓰였지만 지금은 검증이 어려운 점 등의 이유로 거의 쓰이지 않는다. 시계열모형은 시계열의 통계적 성질을 이용한 통계모형으로 ARIMA(Autoregressive Intergrated Moving Average) 모형, 파엽(wavelet) 모형 등이 있으나 시계열 모형은 시계열의 메모리가 커야 하므로 확률변수에 가까운 계절평균 기상/기후 요소의 예측에는 적합하지 못하다. 그러나 엘니뇨 예측이나 계절내 진동과 같이 비교적 주기성이 분명한 현상에 대해서는 활용되고 있다. 다중회귀모형(multiple linear regression)은 다중회귀분석에 기반한 모형으로서 다수의 예측인자(predictor)와 예측변수(predictand)를 통계적으로 적합(fitting)시킴으로써 예측모형을 구성할 수 있다. 다중회귀모형은 계절예측 뿐 아니라 다양한 분야에서 쓰이는 통계모형이지만, 높은 예측성과 안정적인 예측인자를 찾은 것이 매우 어렵다는 단점이 있다. 정준상관분석모형 (canonical correlation analysis model; CCA model)은 가장 복잡한 선형 통계모형으로서 다중회귀모형과는 다르게 여러 지점의 값을 동시에 예측할 수 있는 장점을 가지고 있다. 정준상관분석모형은 예측인자지역과 예측변수지역을 적합(fitting)시킴으로써 예측모형을 구성한다. 정준상관분석모형 역시 다양한 분야에서 많이 쓰이고 있지만, 그 예측인자 지역을 찾기 어렵다는 단점을 가지고 있다. 인공신경망(artificial neural network) 모형은 인공신경망이라는 통계적 기법을 바탕으로 만들어진 통계모형이며, 정준상관분석모형과 마찬가지로 여러
지점의 예측인자와 여러 지점의 예측인자를 동시에 적합시킬 수 있는 장점을 가지고 있으며, 특히 비선형 적합이 가능하다는 장점을 가지고 있다. 특히, 2000년대 들어 인공신경망 기술이 발전하여, 심층학습(machine learning), 합성인공신경망(convolutional neural network) 등 정교화된 인공신경망 기법이 개발되어 패턴인식, 인공지능 등 많은 분야에 쓰이고 있다. 그러나 기본적으로 인공신경망모형을 쓰기 위해서는 아주 많은 수의 샘플이 요구되나 기후 자료의 샘플수는 그리 많지 않으므로 아직까지 이 기술을 기후예측에 적용하기에는 어려움이 많다. 현업적으로 기상청 기후예측과의 장기기상전망의 대상은 계절평균 기온 및 강수량, 월평균 기온 및 강수량, 그리고 황사나 태풍과 같은 특이 기상이다.
다중선형회귀모형은 예측인자(predictors)와 예측변수(predictand)의 지연상관을 이용한 선형통계모형으로서 계절예측에 많이 이용되어 왔다(예, Wu et al., 2009). 그러나 물리적으로 연관이 있는 예측인자를 이용하지 않는다면 종종 과적합문제(overfitting problem)로 인하여 불안정한 예측결과를 생산할 수 있다. 이를 보완하기 위하여 예측인자들의 상관성을 고려하는 경험적 직교함수 (Empirical Orthogonal Function; EOF)나 예측인자 공간분포와 예측변수의 공간분포를 통계적으로 적합시키는 정준상관분석모형(Canonical Correlation Analysis model; CCA model)이 이용된다. 이들을 이용한다면 상대적으로 예측인자와 예측변수간의 물리적 이해를 바탕으로 하는 지연상관관계를 알 수 있다. 다중선형회귀모형은 다음과 같이 나타낼 수 있다.
여기서 는 예측변수이고, 는 예측인자, 는 회귀계수이다. 의 hat은 추정된 예측값을 의미한다. 이 예측변수를 이용하여 다중선형회귀모형을 구성하였다. 그런데, 다음과 같이 추가적 강제조건을 두면 지역에 따른 통계모형의 불안정성을 크게 감소시킬 수 있다(Weare, 1982).
여기서 는 예측인자에 대한 행렬이다. 매개변수 는 선행연구에서 가장 높은 예측성능을 보이는 0.5가 많이 이용된다.
나. 통계모형의 개발 및 예측인자 분석
1절에서 소개된 모형을 여름철 한반도 주변 해수면온도의 계절예측에 적용하기 위하여 예측인자로 다양한 기후변동성이 고려되어 왔다. 북동아시아 지역은 동아시아 여름몬순 지역으로서 많은 선행 연구에서 분석 한 것처럼 극 지역, 중위도 지역, 열대 지역의 영향을 다양하게 받고 있다(Chang et al., 2000a, 2000b, Nitta, 1987, Wang et al., 2001, Yamaura and Tomita 2011, Yim et al., 2010). 특히, 북서태평양 지역과 인도양 지역의 기후변동성이 여름철 북동아시아 기후에 영향을 많이 미치는 것으로 알려져 있다. 그래서 북서태평양 지역의 해수면온도 지수, 그리고 인도양지역의 아열대 고기압 지수를 다음과 같이 정의하고 이용하였다.
북서태평양 지수(western North Pacific index; WNPI) = SSTA_JJA (140E-160E, 5N-20N)
인도양아열대고기압지수(Indian Subtropical High; INDSH) = HGT850_JJA (90E-110E, 5N-15N)
이 지수들을 이용하여 예측변수인 한반도 주변 여름철 해수면온도편차와 상관계수를 구한 값을 그림 3.2.1에 보인다. 그림에서 보이는 바와 같이 북서태평양 지역의 해수면온도 예측인자와 인동양 지역의 고기압인자는 여름철 한반도 주변 해수면온도와 비교적 높은 상관성을 갖는다. 이들을 이용하여 1절에서 제시된 추가적인 강제조건이 포함된 다중선형회귀모형을 구성하였다. 그 결과는 그림 3.2.2에 보인다. 그림 3.2.2에서 보이듯이 통계모형은 약 상관계수 0.61 정도의 예측성을 보이는 것을 알 수 있다. 특히, 첫 번째 예측인자인 북서태평양 예측인자(WNPI)와의 부분회귀계수는 대부분의 영역에서 0.8 이상의 높은 값을 가지므로 인도양 고기압지수에 비하여 상대적으로 북서태평양 예측인자가 북동아시아 지역의 해수면온도 변동에 많은 영향을 끼치는 것을 알 수 있다. 그러므로 이 예측인자를 북동아시아 지역 한반도 근해 해수면온도, 특히 여름철 해수면온도 편차에 대한 계절예측모델를 구성하는데 활용할 것이다.
그림 3.2.1. (a) WNPI와 (b) INDSH에 대한 여름철 평균 해수면온도의 상관계수 지도