시계열모형 - “데이터 기반 디지털 경제 미래예측 방법론 연구”

계량예측에 이용되는 자료가 시간변수를 포함하고 있을 경우에는 설명모형 외에 시계열모형을 이용할 수 있다. 시계열모형과 설명모형의 주된 차이점으로 모형을 통해 규명하고자 하는 관계를 들 수 있다. 시계열모형의 경우 설명모형에서 중요한 요소로 꼽히는 종속변수와 독립변수와의 관계규명에 초점을 두지 않고, 측정 자료 를 통해 얻어낼 수 있는 과거, 현재, 미래 등 서로 다른 시점의 측정치에 대한 관계 규명에 중점을 둔다. 시계열모형을 이용한 예측에 있어서의 매우 고전적인 예시로 는 태양의 흑점 개수의 자료 분석을 들 수 있는데, 여기서는 과거에 관측된 태양의 측점 개수만을 토대로 향후 생성될 태양 흑점의 개수를 시간의 변화에 따라 추정한 다. 태양 흑점의 개수를 예측하는 것은 흑점의 생성원리와 이유를 탐색하고자 하는 것과는 별개로 이루어지며, 이는 시계열모형의 추정에 있어서 큰 관심사가 아니다.

8) 이러한 연유로 설명변수(explanatory variable)는 독립변수(independent variable)라고 불리기도 한다.

다시 말하자면, 시계열모형은 미래 시점에 있어서의 예측값의 추정이 주목적이지, 왜 이러한 추정값이 예측되었는지 그 원인을 밝히는 것은 아니라는 것이다. 시계열 자료는 일반적으로 추세(trend), 순환(cycle), 계정변동(seasonal variation), 불규칙 변 동(irregular fluctuation)의 네 가지 중 한 개의 요소로 구성되어 있는데, 시계열 자료 분석을 통해 그 구성요소와 변동 요인을 알아낼 수 있다.

X를 측정변수라고 하고 변수의 측정시간이       로 표현될 때, 가 장 단순한 형태의 시계열 모형은 다음과 같은 등식으로 표현될 수 있다.

_{   }         …오차

위에 제시된 등식을 통해 알 수 있듯이, 단순 시계열모형에서는 미래시점에서의 측정변수의 예측값은 단순히 과거 시점의 측정치와의 관계로부터 추정되고, 이러한 시계열 자료를 이용한 여러 가지 모형은 많은 연구와 발전을 거듭해 왔다. Box et al.(1975)은 시계열 동적 모형의 활용을 크게 다섯 가지 분야로 나누어 기술하였다.

여기서는 그중 공정관리(process control)를 제외한, 시계열예측모형(time series fore-casting models), 전이함수모형(transfer function models), 개입분석모형(intervention analysis models)에 대하여 대략적인 구조와 각 모형의 적용에 대하여 간단히 설명하 도록 한다.

가. 시계열예측모형(time series forecasting models)

예측값의 추정을 위해 주어진 자료가 1) 이산형 자료(discrete data)이고, 2) 일정한 시간적 간격(equispaced interval of time)을 기준으로 측정되었다고 가정하자. 현재 시점인 t를 기준으로 하여, 측정값 _{  }_{  }_{  } …이 존재한다고 할 때, 함수

_는t시점에서 _{ }_{  }_{  }_{  } … 자료를 이용하여 현재시점t와 과거시점에 서의 측정값의 관계를 바탕으로 추정된 예측함수로 볼 수 있다. 여기서 l을 리드타 임(lead time)이라고 부른다. 이러한 모형 추정에서 l이 0보다 크다는 가정 하에, 여 느 회귀모형과 마찬가지로, 실제 미래시점에서의 측정값과 예측값, 즉, _{  } _

의 제곱 평균(mean square)을 최소화하여 추정치의 오차를 최소화하는 것을 모형 수

미한다. 즉, 모든 상수 k와 에 _ 분석하게 되는데, 이를 ARIMA(autoregressive integrated moving-average) 모형이라고

[그림 2－12] Box-Jenkins의 ARIMA 모형수립방법

한다. 이러한 ARIMA 모형은 시계열 자료의 동태를 살펴 이에 따른 예측모형을 수립 하는 것이 가능한 것을 장점으로 들 수 있다. 이러한 점에서 경제, 경영, 환경, 자원 관리 등 다양한 분야에서 많이 쓰이고, 보편화된 모형 중 하나가 ARIMA 모형이다.

한 가지 종류의 시계열 자료를 통한 분석인 단변량ARIMA 분석의 특징으로는 다른 설명변수의 수집 없이 예측하고자 하는 시계열 자료 한 가지만으로도 변동형태와 추이를 파악하여 예측모형을 수립할 수 있다는 점을 들 수 있다. 이 모형은 대부분 의 시계열 자료의 분석에 적용이 가능하고, 특히 민감한 시계열적 변동이 모형에 쉽 게 반영될 수 있다는 장점도 가지고 있다.

시계열 자료의 분석에는 특정한 설명변수의 정의 없이, 서로 다른 k가지의 시계열 자료가 결합적으로(jointly) 변화하는 경우가 존재할 수 있다. 이런 여러 시계열 자료 들의 동태적(dynamic) 양상을 파악하는 데는 다변량 시계열 모형(multivatiate time series models)이 사용된다. 이 모형은 앞서 소개한 단변량 시계열예측모형을 서로 독립적이지 않을 수도 있는 다수의 시계열 자료에 적용하여 동시다발적으로 분석하 는 개념으로 접근할 수 있다. 주로 관찰 및 수집된 시계열 자료가 서로 독립적으로 움직이지 않고 영향을 주고받는 경우에 많이 쓰이며, 특정한 시계열 자료의 예측 정 확도를 높이기 위해 사용되기도 한다.

나. 전이함수모형(transfer function models)

전이함수모형은 입력 시계열 자료(input time series) _, 출력 시계열 자료(output time series)  두 개의 변수의 관계를 함수로 나타내는 모형을 말한다. 입력 시계열 자료와 출력 시계열 자료의 인과관계를 가정하고, 입력이 어떠한 전이과정을 거쳐 출력값을 가지는지를 나타낸다. 입력 시계열 자료(input time series) _의 변화가 출 력 시계열 자료(output time series) _의 변화를 예상한다고 가정할 때, 입력 시계열 자료(input time series) _를 leading indicator라고 지칭하기도 한다.

일반적으로 입력시계열 _, 출력시계열 _, 전이함수 _    …는 다음과 같은 형태로 표현된다.

_ _{  }



^∞ ^^^^{  }^^^

여기에서 _는 전이함수로 설명되지 않은 부분을 설명할 수 있는 잡음 시계열 (noise time series)이며, 입력 시계열인_와는 독립적인 것을 가정하고, 일반적으로 ARIMA 모형을 통해 기술된다. 전이함수모형은 입력 시계열 자료와 출력 시계열 자 료와의 동적 관계를 규명할 수 있어 단순히 단일 시계열 자료만을 이용하는 다변량 시계열 모형보다 좋은 분석 결과를 얻을 수 있는 장점이 있다. 유현상 등(2010)은 출 생자 수에 영향을 미치는 잠재 변수를 이용한 전이함수모형을 통해 출생자 수 예측 모형을 수립하는 것이 단순ARIMA 모형보다 모형 적함도와 예측력에 있어서 우위 를 보여주는 것을 확인한 바 있다. 이와 같이 전이함수모형은 회귀분석과 같이 어떠 한 관계를 시계열적으로 설명하는 데 자주 쓰이는 모형이다. 이때 입력 시계열 자료 인 설명변수는 회귀분석과 마찬가지로 서로 독립이라는 가정 하에 선형 결합(linear combination)이 가능하기도 하다. 예를 들어, 광고비 지출, 경기지표 등 대비 매출액 등과 같이 시간의 흐름에 따른 관계를 규명하는 데 사용될 수 있고, 여기서 광고비 지출과 경기지표의 경우 입력 시계열 자료, 향후 매출액의 경우 출력 시계열 자료로 간주하여 모형을 수립할 수 있다.

다. 개입분석모형 (intervention analysis models)

사회과학에서 시계열 자료가 측정시기에 따라, 특정 규제 혹은 정책의 변화, 파업 과 같은 특별한 사건의 발생을 포함하는 경우가 있다. 이때 분석 자료에 이러한 사 건이 반영되는데, 특정한 사건의 발생을 전이함수모형의 전이함수로 가정하여 시계 열 자료를 분석하여 예측모형을 수립할 수 있다. 이 경우 사건의 발생이 함수로 표 현되어야 하므로, 표시함수(indicator function)를 이용한다. 개입분석(intervention analysis)의 주목적은 특정한 사건이 시계열 자료의 변화에 미치는 영향을 수치화하 여 계량적으로 분석하는 데 있다. 마치 사건이 발생한 것처럼 측정 자료가 특정한 시간에 큰 변화를 포함한 자료를 분석하여 예측값을 추정하는 경우에, 정확히 알려

지지 않은 불특정 사건이 발생하였다는 가정 하에 모형을 수립하여 예측치의 추정 값에 대한 오류를 줄일 수 있는 장점이 있다. 개입분석모형은 다음과 같은 수식으 로 표현되는데, 일종의 전이함수인 , 특정한 사건(intervention)을 나타내는 _, 잡음 시계열 _로 표현될 수 있다.

_   __

여기서 특정한 사건(intervention)을 나타내는_는 성격에 따라 크게 두 가지 종류 의 표시함수(indicator function)로 표현된다. 개입(intervention)이 발생한 후 그 여파 가 계속 남는다는 가정을 따르면, 다음과 같은 계단함수(step function)를 통해 나타 낼 수 있다.

_^{ }



^{   }  ≥^

반면에, 사건의 여파가 순간적, 일시적인 경우에는 간헐함수(pulse function)로 나 타낼 수 있다.

_^



^{   ≠}  ^

Box and Tiao(1975)⁹⁾는 위와 같은 개입분석모형을 두 가지 분야에 적용하여 활용 도를 보여주었는데, 그 내용은 다음과 같다. 첫 번째 예시로는 1955년부터 1972년 사이에 측정된LA 지역의 오존농도 자료의 분석이다. 오존농도 시계열 자료의 자기 상관함수(autocorrelation functions)의 분석 결과 계절성을 지닌 비정상성 과정 (nonstationary process)이며, lag 1과 12에서 유의미한 상관관계를 보이는 것으로 나 타났다. 따라서 개입(intervention) 효과 분석에 앞서 잡음 시계열 _에는 다음과 같

9) Box, G. E., & Tiao, G. C. (1975). Intervention analysis with applications to economic and environmental problems. Journal of the American Statistical association, 70(349), 70-79.

은 차분(differencing)을 이용한 모형이 제안되었다.

(Phase II)로 구분하여 각 단계별 효과를 분석하였다. 먼저, 첫 218개 자료와 차분 (differences)에 대한 자기상관함수의 분석을 토대로 다음과 같은 잡음시계열의 형태 를 추정하였다.

     

위 식에서 와 _의 값은 각각 0.84, 0.0019로 각각 추정되었으며, 다음으로 살펴 본 구체적인 연구문제는 다음과 같다.

1) 각 단계별 기간 동안 인플레이션 수치의 변화가 예상할 만한 것인가?

2) 추정된 잡음시계열의 형태가 변화하지 않은 상태로 지속되었는가?

추정된 잡음시계열 구조의 오차를 무시한 대략적 모형은 다음과 같이 정의되었으며,

_ __{ } __{ }   

  

_, where

_{ }



    년 월 월 월

  ≠ 년 월 월 월 _{ }



   ≥ 년 월

   년 월

추정된 모형에 따르면 소비자물가지수(Consumer Price index) 기준의 인플레이션 변화가 작아진 것은 제1단계(Phase Ⅰ) 기간과 관련이 있지만, 2단계(Phase Ⅱ) 기간 과의 관련성은 확인하기가 다소 힘든 것으로 나타났다.

문서에서 “데이터 기반 디지털 경제 미래예측 방법론 연구” (페이지 76-84)