Combination of Schwarz Information Criteria for Change-Point Analysis

(1)

2 002 , V ol. 13, N o.2 p p 185～193

Com bin ation o f S c h w arz In form at ion Crit e ri a f or Ch an g e - P oin t A n aly s i s

Jo n g T ae K im¹⁾ A b s trac t

T h e pu rp os e of t his p aper is t o su g g e st a m eth od for det ectin g t h e lin ear r eg r es sion ch an g e - poin t s or v arian ce ch an g e - p oint s in r eg re s sion m odel by t h e com bin ation of S ch w ar z inform at ion crit eria . T h e adv an t ag e of t h e su g g est ed m et h od is t o det ect ch an g e - p oint s m or e det ailed w h en on e com p ar es t h e su g g est m eth od w it h Ch en (1998 )' s m eth od .

K e y w o rd s : Lin ear r egr es sion fit ; Ch an g e - point ; In form ation crit eria .

1 . 서론

정보판별(Inform ation Criterion )함수는 시계열분석, 이상점(outlier s )의 분석, 회귀분 석, 가설검정론 등 많은 통계 추론 분야에 사용되어져 왔다. 모수 와 모수의 개수 p 와 최우도함수 L ( ) 에 대하여, A k aik e (1973 )에 의해 제시된 - 2 log L ( ) + 2 p인 정보판별함수(Akaike Inform ation Crit erion , A IC )와 - 2 log L ( ) + p log n 로 정의 되는 S chw ar z (1978)의 정보판별함수(S chw ar z Inform ation Crit erion , SIC ), 그리고 A IC 와 S IC 를 기초로 변형된 많은 정보판별함수들은 경제학, 심리학, 공학 등, 결정 과 판단이 필요한 많은 학문 분야에 유용한 도구로서 사용되어져 왔다. 특히 SIC 는 일치추정량의 성질을 가지는 정보판별함수로서 변화점 추정의 도구로서 사용되었다.

Ch en (1998 )은 관찰된 데이터의 집합에서 선형회귀모형의 변화에 따른 변화점을 S IC 를 이용하여 모형에 포함된 여러개의 변화점들 중 가장 영향력이 큰 한 개의 변 화점에 관한 추정 방법을 제시하였다. Chen과 Gupt a (1997)의 연구는 분산에 대한 변 화점들을 검정 하는데 기초를 두지만 데이터에 포함된 변환점들을 찾기 위하여 이분 법에 의한 방법으로 순차적인 방법으로 여러번의 반복 검정을 해야 하는 불편함이 있 다.

실제로 어느 시점 x₀가 변화점이라고 가정할 때, 데이터에 포함되어 있는 모형함

1. A s sociat e Pr ofessor , Dept of St atistics , T aegu Univ er sity , 712- 714, Kor ea.

E - m ail: jtkim @daegu .ac.kr

(2)

수에 의하여 변화점이 발생되는 경우가 있고, 혹은 모형의 확률오차에 포함된 분산의 변화에 따른 변화점이 발생될 경우가 생긴다. 이들 두가지 중 어느 경우라도 관계없 이 변화점 x₀을 중심으로 이웃하고 있는 영역의 국소적인 부분에서의 분산의 변화가 필연적으로 발생하게 되는 경우를 실험을 통하여 볼 수 있다.

그러므로 본 연구의 아이디어는 모형의 확률오차에 포함된 분산의 변화에 대한 통 계량과 선형회귀직선의 변화에 대한 통계량을 혼합하여 진보된 통계량을 제시하는데 있다. 제시된 통계량은 데이터의 변화점이 발생하는 위치들을 보다 더 정확하게 관찰 할 수 있고, 추정된 변화점에 의해 관찰되는 선형회귀직선을 기준으로 데이터가 등분 산 성질을 잘 나타내고 있다. 또한 회귀 모형의 변화에 대한 변화점이나 혹은 분산의 변화에 대한 변화점을 동시에 검정할 수 있는 효과를 가질 수 있다.

2 . 정보 판별기준에 의한 변화점추정

다음의 선형(회귀)모형에 대하여 고려해 보자.

yi = i + i , i = 1 , , n .

여기서 _i는 i 번째 관측의 확률오차로서 평균이 0이고 분산 ²인 정규분포를 따 른다고 가정하자. 따라서 이 모형의 i 번째 반응값 y_i는 평균이 _y

i이고 분산이 ² 인 정규모집단에서 독립적으로 나오는 값임을 의미한다. 만약 _y

i = ₀ + ₁x_i로

둔다면 다음의 단순선형 회귀모형이 성립할 것이다.

yi = y_i + i = 0+ 0xi + i , i = 1 , , n . (2.1) 본 논문에서 제시하는 변화점의 추정방법은 단순회귀에 국한하지 않고 중선형회귀 모형의 확장에서도 쉽게 적용할 수 있다. 그러나 이해의 편의를 돕기위하여 단순 선 형회귀모형에서 변화점 추정방법을 제시한다. 어떤 시점, 가령 관찰값들의 각각의

k₁, k₂, , k_{m - 1}번째 이후에 관찰값들이 절편이나 기울기의 변화에 따라 서로 다른

선형회귀모형들의 변화나 혹은 분산의 변화에 따라서 선형회귀모형의 변화를 심각하 게 고려해야하는 속성을 가지는 데이터들의 집합을 흔히 접한다. 이에 대한 가설검정 을 위해서 각각의 서로 다른 미지의 회귀모수 _0j, _1j, j = 1 , , m 과 k₀= 1 ,

km = n 에 대하여, y^j i = 0j + 1jxi , i = kj - 1, , kj , j = 1 , m 으로 두고, 다음 과 같은 귀무가설과 대립가설을 정의하자.

귀무가설, H₀ : y i N ( yi , ²) i = 1 , , n (2.2) 대립가설,

H1 : y ¹i N ( y¹i , ²1) , i = 1 , , k1, y ²i N ( ²yi , ²2) , i = k1+ 1 , , k2, y ^mi N ( y^m_i , ²m ) , i = k m - 1+ 1 , , n .

(2.3)

여기서 각각의 k₁, k₂, , k_{m - 1}은 상수의 값을 가지며 1 < k₁ < k₂< < k_{m - 1}< n - 1

(3)

의 범위를 가진다. 그리고 k_j + 1 , j = 1 , , m - 1 은 선형회귀모형의 변환이 일어나 는 변화점이 된다. 즉, 귀무가설 H₀는 데이터의 집합에서 어떠한 변화점을 가지지 않는 단일 선형회귀모형을 가지고 있음을 의미하고, 대립가설 H1은 각각의

k_j + 1 , j = 1, , m - 1 의 변화점을 기준으로 m 개의 회귀모형을 가짐을 뜻한다.

2 .1 선형모형의 변화점추정

먼저 식 (2.3)의 다중 변화점에 대한 대립가설에서의 S chw ar z의 정보판별함수 통 계량의 성질을 조사하기 전에 한 개의 변화점이 존재하는 경우의 검정의 가설에 대한 S IC 통계량을 구해보자. Ch en (1997 )은 S ch w ar z의 정보판별함수를 이용하여, 회귀모 형에서의 가장 영향력이 큰 하나의 변화점을 찾는 방법으로 귀무가설에서의 통계량을 다음과 같이 제시하였다.

S ICc( n ) = - log L0( 0 , 1 , c

2) + 3 log n

= n log( c

2 )+ n ( 1 + log 2 ) + 3 log n .

(2.4)

여기서 ₀와 ₁은 ₀와 ₁에 대한 최소제곱추정량이고, 이를 이용한 추정된 회귀 직선 _y

i = ₀ + ₁ x_i에 대하여, 분산 ²의 추정량은 _c² = 1

n ( y - _y_i)²이다.

다음은 대립가설 H₁에 대한 SIC 통계량을 조사한다. 데이터를 임의의 시점에서 이 분화하여 생성된 미지의 회귀모수 _{0 1}과 ₁₁, 그리고 ₀₂와 ₁₂와 ²에 대한 최 우도 추정치는 다음과 같다.

0 1 = yk - 11xk ,

11=

k

i = 1( x_i - x_k) ( y_i - y_k) /

k

i = 1( x_i - x_k)² ,

02 = y_{n - k} - ₁₂ x_{n - k} ,

12 =

k

i = 1( xi - xn - k) /

k

i = 1( yi - yn - k)

c1

2 = 1

n {^{i = 1}^k ^{( y}ⁱ ^- ^{0 1}^- ¹¹^xⁱ⁾² ⁺ ^{k = k + 1}ⁿ ^{( y}ⁱ ^- ⁰² ^- ¹²^xⁱ⁾²}^.

여기서

x_k = 1 k

k

i = 1x_i , y_k = 1 k

k

i = 1y_i 이고,

x_{n - k} = 1

n - k

n

i = k + 1x_i , y_{n - k} = 1

n - k

n

i = k + 1y_i

이다. 그러므로, 대립가설 H₁에서 k = 2 , , n - 2에 대한 S chw ar z 정보판별 함수는 최우도 함수의 추정값은 다음과 같이 구할 수 있다.

(4)

S IC_c( k) = - 2 log L₁( _{0 1}, ₁₁, ₀₂, ₁₂, _c1²) + 5 log n

= n log{ c1

2 }+ n ( 1 + log 2 ) + 5 log n

(2.5)

여기서 L₁( _{0 1}, ₁₁, ₀₂, ₁₂, _c1²)은 대립가설 H₁하에서 최우도 함수이다.

선형회귀모형의 변화점 가설검정을 위한 판정기준은

S IC_c( n ) m in { S IC_c( k) : 2 k n - 2 }이면 귀무가설 H₀을 채택. (2.6) 하고, 이와 반대로 SIC_c( k) = m in { S IC_c( k) : 2 k n - 2 } < S IC_c( n ) 이면 대립가 설 H₀ 을 기각한다. 이 때 변화점 추정을 위한 k 는 { SIC_c( k ) : 2 k n - 2 } 최소 로하는 k 이고 변화점은 k + 1 이 된다.

2 .2 분산의 변화점추정

독립변수에 따라 분산의 변화가 생길 때, SIC 에 의한 검정방법은 다음과 같다, 즉, 귀무가설 H₀: ²₁ = = ²_n = ²와 대립가설 H₁: ²₁ = = ²_k₀ ²_k₀_{+ 1}=

= ²_n 에 대하여, 귀무가설하에서의 SIC 의 정보판별함수 통계량은 다음과 같다.

S IC_g( n ) = n log _g² + n ( 1 + log 2 ) + 3 log n . (2.7) 여기서 _g² = 1

n

i = 1 ( y_i- ₀- ₁x_i)²이다. 대립가설하에서의 SIC 의 통계량:

S ICg ( k) = k log g 1

2 + ( n - k ) log g 2

2 + n ( 1 + log 2 ) + 6 log n , (2.8)

g 1

2 = 1

k

i = 1 ( y_i- _{0 1}- ₁₁x_i)², _{g 2}²= 1

( n - k)

n

i = k + 1 ( y_i- ₀₂- ₁₂x_i)²이다.

위의 식 (2.8)의 SIC_g는 Chen과 Gupta (1997)가 제시한 추정량을 변형하여 제시한 추정량이다. 앞 절의 설명과 같이 어느 변화점을 중심으로 양쪽 데이터들의 각각에 대한 선형회귀모형에서의 평균제곱오차(m ean squ ar e err or , M SE )의 합을 추정하여 M S E 의 합들의 변화에 대한 S IC 의 값들을 관찰한 것이다. 이러한 측면에서 Ch en과 Gu pt a의 추정량과 본 연구에서 제시하는 분산의 변화에 대한 추정량은 다르다. 제시 된 식 (2.8)의 분산의 변화에 대한 통계량을 이용하여 변화점을 추정하는 방법은 다음 의 일반적인 절차를 따른다.

S IC_g( k) = m in { S IC_g( k ) : 2 k n - 2 }. (2.9) 여기서 k 는 S IC_g( k) 를 최소로하는 값이다. 검정에 대한 판단기준을 정하기 위하여, 신뢰계수 에 대하여 관계된 기각값을 c 0이라고 하자. 만약

S IC_g( n ) > m in { S IC_g( k) : 2 k n - 2 } + c 이라면 귀무가설 H₀ 을 기각 (2.10) 한다. 그리고 k + 1 의 값을 변화점으로 간주한다. 그러므로 신뢰계수 에 관계된 기 각값 c 에 대하여 다음의 확률이 성립된다.

1 - = P [ S IC_g( n ) < m in {S IC_g( k ) , 2 k n - 2 } + c | H₀ ] . (2.11)

(5)

식 (2.11)의 c 의 값은 Gupt a와 Chen (1997)의 연구결과와 비슷한 방법으로 구할 수

있다. 다음 절에서는 위의 두 통계량을 이용한 변화점의 추정 방법을 제시한다.

3 . 제시된 변화점 추정

앞절에서 S chw ar z의 정보판별함수를 이용한 분산의 변화에 따른 변화점 추정방법 S IC_g와 Chen에 의해 제시된 회귀직선의의 변화에 따른 변화점 추정 SIC_c을 관찰 하였다.

앞서 설명한 바와 같이 실제로 어느 시점 x₀에서 모평균 변화에 의한 변화점이 발 생되거나 혹은 회귀직선의 변화에 따른 변화점이 발생될 경우에, 그 변화점 x₀ 을 중 심으로 이웃하고 있는 영역의 국소적인 부분에서의 분산의 변화가 필연적으로 발생하 게 된다. 그러므로 분산의 변화에 대한 통계량 SIC_g와 회귀직선의 변화에 대한 통계 량 S ICc에 의한 변화점의 추정보다는 두 가지 방법을 혼합한 T IC = ( S ICg +

S IC_c) / 2 에 의한 추정이 보다 더 세밀하게 변화점을 관찰할 수 있는 장점을 가진다.

귀무가설에서의 통계량 T IC 를 다음과 같이 정의하자.

T IC ( n ) = ( S IC_g( n ) + S IC _c( n ) ) / 2

= n

2 {^log ^g² ^{+ log}( ^c² )}+ n ( 1 + log 2 ) + 3 log n .

(3.1)

대립가설에서의 통계량:

T IC ( k) = ( S ICg( k) + S IC c( k) ) / 2

= k

2 log _{g 1}² + ( n - k)

2 log _{g 2}² + n

2 log ( c1 2 )

+ n ( 1 + log 2 ) + 5 . 5 log n .

(3.2)

변화점 가설검정을 위한 판정기준은

T IC ( n ) m in { T IC ( k) : 3 k n - 4 }이면 귀무가설 H₀을 채택 (3.3) 하고, 이와 반대로

T IC ( k1, k2, , ) = loca l arg m in k₁, k_{2 ,} ,{ T IC ( k) : 3 k n - 4 } < T IC ( n ) (3.4) 이면 H₀ 을 기각한다. 여기서 k 의 범위는 3 k n - 4 이다. 이는 T IC ( k) 에 포함된 추정된 모수들의 수의 영향을 받았다. 식 (3.4 )에서 loca l arg m in { T IC ( k) :

3 k n - 4 }의 표현은 T IC ( n ) 의 값보다 작은 T IC ( k) , 3 k n - 4 , 값들이 여러 개의 국소적인 집단(clu st er )영역에서 국소적인 최소값 k₁, k2, 을 갖는 것을 의미한 다. 이들 국소적인 집단의 개수는 추정된 변화점의 개수로 추정되고, 국소적인 집단영 역의 최소값들 k₁, k₂, 에 대하여 다음 위치 k₁+ 1 , k₂+ 1 , 가 변화점의 위치로

(6)

추정된다. 그러므로 신뢰계수 에 관계된 기각값 c 에 대하여 다음의 확률이 성립된 다.

1 - = P [ T IC ( n ) < loca l arg m in {T IC ( k ) , 3 k n - 4 } + c | H0 ] . (3.5) 이러한 아이디어는 모집단내의 임의의 k 시점에서 모형의 변화가 발생한다면 k 지 점의 국소적인 부분에서 분산의 변화가 발생하는 것과 동일한 성격을 가진다. 이것은 점프에 의한 변화이던지 분산이나 혹은 회귀직선의 변화에 의한 모형이든 상관없이 모두 통계량 T IC 에 의해 관찰되어질 것이다. 그러므로 제시된 T IC 는 분산의 변화점 이나 회귀모형의 변화점이 둘 다 혼합된 모형에 대한 변화점 추론에 영향력을 가진 다.

4 . 실제 사례의 적용

식 (3.4)의 이해를 돕기위하여 그림 4.1은 H olbert(1982)의 논문에 있는 1967년 1 월부터 1969년 11월까지, 반응변수로 보스톤 증권 회사(Boston St ock Ex change , BSE )의 매월 미화의 판매량과 설명변수로 뉴욕 어메리칸 증권회사(N ew York Am erican St ock Ex ch an g e, N YA M SE )의 매월 미화의 판매량의 ^데이터 이다.

그림 4 .1 그림 4 .2

그림 4.1의 실선으로 된 부분은 귀무가설 H₀에서의 추정된 회귀직선을 나타낸 것 이다. 그림 4.1에서 보듯이 데이터의 모형은 추정된 하나의 회귀직선을 기준으로 데이 터는 등분산성의 성질을 만족하지 않음을 알 수 있다. 그림 4.2와 그림 4.3은 H olb ert 의 데이터를 가지고 분석한 Chen (1998)의 결과이다. Ch en의 결과에 따르면 1968년 12월 (24번째 데이터) 이후의 N Y A M S E 에 대한 B S E 의 선형모형의 변화가 일어나고 있음을 의미한다. 변화점(24번째 데이터)인 1968년 12월 이전과 이후의 데이터들을 분 리하여 회귀모형을 분리하는 것이 보다 바람직함을 알 수 있다

그림 4.4은 Ch en에 의해 두 개의 분리된 회귀모형을 나타낸 그림이다. 그림 4.4에서

(7)

모형(1- 23)의 데이터의 집합은 추정된 회귀직선으로부터 N Y A M SE 의 값이 크질수 록 BSE 의 값의 산포가 점점 더 크게 나타나고 있다. 이것은 1에서 23째의 데이터들 사이에서 분산의 변화가 일어나고 있음을 나타낸다. 그러므로 분산의 변화에 대한 변 화점의 추정이 필요하다.

그림 4 .3 그림 4 .4

그림 4.5와 그림 4.6은 식 (3.1)과 식 (3.2)의 제시된 T IC ( n) 과 T IC ( k) 에 대한 그림이다. 식 (3.4)의 T IC ( k) = local arg m in { T IC ( k) : 2 k n - 2 } < T IC ( n ) 의 기각영역에 따라서 k = 9 , 14 , 23 의 3가지 경우의 변화점 k + 1 = 10 , 20 , 24 가 추정되어진다. 그러나 k = 14 인 경우에, T IC ( k) 의 값과 T IC ( n ) 값과의 거리의 차이 가 작게 나타난다. 이에대한 해석은 실제로 가설검정의 기각역 C 의 값의 결정을 요 구한다.

그림 4 .5 그림 4 .6

그림 4.7은 변화점이 3개인 경우 k + 1= 10 , 20 , 24에 대하여 4개의 회귀적선들을 추정한 것이다. 그림 4.7에 나타난 선형회귀 모형들을 자세히 살펴보면 각각의 모형 들의 데이터는 각 추정된 회귀직선을 기준으로 동일하게 분포되어 있음을 알 수 있

(8)

다. 또한 시간 k 에 따른 각 추정된 회귀직선들은 서로 다른 모형을 가지고 변하고 있음을 알 수 있다.

그림 4 .7

그림 4 .8

그림 4.8은 신뢰성이 의심스러운 k + 1= 20 인 경우를 제외하고, 변화점이 2개인 경우 k + 1= 10 , 24에 대하여 3개의 회귀적선들을 추정한 것이다. 각 회귀직선을 기준 으로 데이터의 산포된 분포의 정도를 가지고 분석할 때, 그림 4.4의 Chen에 의한 분 석보다도 분산의 안정성을 가짐을 알 수 있다. 그러므로 제시된 T IC 에 의한 변화점의 추정방법은 Chen이 제시한 SIC 에 의한 방법 보다가 더 세밀하게 데이터의 집합내에 서의 변화점들을 더 잘 추정함을 알 수 있다.

(9)

참고문헌

1. A k aik e, H . (1973 ). Inform at ion t h eory an d an ex t en sion of t h e m ax im u m lik elih ood prin ciple. I n 2 n d I n terna t ional S y m p os ium on I nf orm a tion T h e ory , E d . B . N . P et r ov an d F . Cs aki, 267 - 281.

2. Ch en , J . (1998) "T est in g for a ch an g e poin t in lin ear r eg r es sion m odels "

Com m un. s ta tis t - T he ory M e th, 27, 2481～2493

3. Ch en , J . & Gupt a , A .K .(1997 ). T est in g an d Locat in g V arian ce

Ch an g poin t s W ith A pplicat ion t o S t ock P rices , J ournal of the A m erican S ta tis tical A s s ocia tion , 92, 739 - 747.

4. S ch w ar z, G. (1978 ). "E st im atin g th e dim en sion of a m odel," A nnals of S ta tis tics , 6, 461- 464.

[ 2002년 9월 접수, 2002년 9월 채택 ]