2 002 , V ol. 13, N o.2 p p 185~193
Com bin ation o f S c h w arz In form at ion Crit e ri a f or Ch an g e - P oin t A n aly s i s
Jo n g T ae K im1) A b s trac t
T h e pu rp os e of t his p aper is t o su g g e st a m eth od for det ectin g t h e lin ear r eg r es sion ch an g e - poin t s or v arian ce ch an g e - p oint s in r eg re s sion m odel by t h e com bin ation of S ch w ar z inform at ion crit eria . T h e adv an t ag e of t h e su g g est ed m et h od is t o det ect ch an g e - p oint s m or e det ailed w h en on e com p ar es t h e su g g est m eth od w it h Ch en (1998 )' s m eth od .
K e y w o rd s : Lin ear r egr es sion fit ; Ch an g e - point ; In form ation crit eria .
1 . 서론
정보판별(Inform ation Criterion )함수는 시계열분석, 이상점(outlier s )의 분석, 회귀분 석, 가설검정론 등 많은 통계 추론 분야에 사용되어져 왔다. 모수 와 모수의 개수 p 와 최우도함수 L ( ) 에 대하여, A k aik e (1973 )에 의해 제시된 - 2 log L ( ) + 2 p인 정보판별함수(Akaike Inform ation Crit erion , A IC )와 - 2 log L ( ) + p log n 로 정의 되는 S chw ar z (1978)의 정보판별함수(S chw ar z Inform ation Crit erion , SIC ), 그리고 A IC 와 S IC 를 기초로 변형된 많은 정보판별함수들은 경제학, 심리학, 공학 등, 결정 과 판단이 필요한 많은 학문 분야에 유용한 도구로서 사용되어져 왔다. 특히 SIC 는 일치추정량의 성질을 가지는 정보판별함수로서 변화점 추정의 도구로서 사용되었다.
Ch en (1998 )은 관찰된 데이터의 집합에서 선형회귀모형의 변화에 따른 변화점을 S IC 를 이용하여 모형에 포함된 여러개의 변화점들 중 가장 영향력이 큰 한 개의 변 화점에 관한 추정 방법을 제시하였다. Chen과 Gupt a (1997)의 연구는 분산에 대한 변 화점들을 검정 하는데 기초를 두지만 데이터에 포함된 변환점들을 찾기 위하여 이분 법에 의한 방법으로 순차적인 방법으로 여러번의 반복 검정을 해야 하는 불편함이 있 다.
실제로 어느 시점 x0가 변화점이라고 가정할 때, 데이터에 포함되어 있는 모형함
1. A s sociat e Pr ofessor , Dept of St atistics , T aegu Univ er sity , 712- 714, Kor ea.
E - m ail: jtkim @daegu .ac.kr
수에 의하여 변화점이 발생되는 경우가 있고, 혹은 모형의 확률오차에 포함된 분산의 변화에 따른 변화점이 발생될 경우가 생긴다. 이들 두가지 중 어느 경우라도 관계없 이 변화점 x0을 중심으로 이웃하고 있는 영역의 국소적인 부분에서의 분산의 변화가 필연적으로 발생하게 되는 경우를 실험을 통하여 볼 수 있다.
그러므로 본 연구의 아이디어는 모형의 확률오차에 포함된 분산의 변화에 대한 통 계량과 선형회귀직선의 변화에 대한 통계량을 혼합하여 진보된 통계량을 제시하는데 있다. 제시된 통계량은 데이터의 변화점이 발생하는 위치들을 보다 더 정확하게 관찰 할 수 있고, 추정된 변화점에 의해 관찰되는 선형회귀직선을 기준으로 데이터가 등분 산 성질을 잘 나타내고 있다. 또한 회귀 모형의 변화에 대한 변화점이나 혹은 분산의 변화에 대한 변화점을 동시에 검정할 수 있는 효과를 가질 수 있다.
2 . 정보 판별기준에 의한 변화점추정
다음의 선형(회귀)모형에 대하여 고려해 보자.
yi = i + i , i = 1 , , n .
여기서 i는 i 번째 관측의 확률오차로서 평균이 0이고 분산 2인 정규분포를 따 른다고 가정하자. 따라서 이 모형의 i 번째 반응값 yi는 평균이 y
i이고 분산이 2 인 정규모집단에서 독립적으로 나오는 값임을 의미한다. 만약 y
i = 0 + 1xi로
둔다면 다음의 단순선형 회귀모형이 성립할 것이다.
yi = yi + i = 0+ 0xi + i , i = 1 , , n . (2.1) 본 논문에서 제시하는 변화점의 추정방법은 단순회귀에 국한하지 않고 중선형회귀 모형의 확장에서도 쉽게 적용할 수 있다. 그러나 이해의 편의를 돕기위하여 단순 선 형회귀모형에서 변화점 추정방법을 제시한다. 어떤 시점, 가령 관찰값들의 각각의
k1, k2, , km - 1번째 이후에 관찰값들이 절편이나 기울기의 변화에 따라 서로 다른
선형회귀모형들의 변화나 혹은 분산의 변화에 따라서 선형회귀모형의 변화를 심각하 게 고려해야하는 속성을 가지는 데이터들의 집합을 흔히 접한다. 이에 대한 가설검정 을 위해서 각각의 서로 다른 미지의 회귀모수 0j, 1j, j = 1 , , m 과 k0= 1 ,
km = n 에 대하여, yj i = 0j + 1jxi , i = kj - 1, , kj , j = 1 , m 으로 두고, 다음 과 같은 귀무가설과 대립가설을 정의하자.
귀무가설, H0 : y i N ( yi , 2) i = 1 , , n (2.2) 대립가설,
H1 : y 1i N ( y1i , 21) , i = 1 , , k1, y 2i N ( 2yi , 22) , i = k1+ 1 , , k2, y mi N ( ymi , 2m ) , i = k m - 1+ 1 , , n .
(2.3)
여기서 각각의 k1, k2, , km - 1은 상수의 값을 가지며 1 < k1 < k2< < km - 1< n - 1
의 범위를 가진다. 그리고 kj + 1 , j = 1 , , m - 1 은 선형회귀모형의 변환이 일어나 는 변화점이 된다. 즉, 귀무가설 H0는 데이터의 집합에서 어떠한 변화점을 가지지 않는 단일 선형회귀모형을 가지고 있음을 의미하고, 대립가설 H1은 각각의
kj + 1 , j = 1, , m - 1 의 변화점을 기준으로 m 개의 회귀모형을 가짐을 뜻한다.
2 .1 선형모형의 변화점추정
먼저 식 (2.3)의 다중 변화점에 대한 대립가설에서의 S chw ar z의 정보판별함수 통 계량의 성질을 조사하기 전에 한 개의 변화점이 존재하는 경우의 검정의 가설에 대한 S IC 통계량을 구해보자. Ch en (1997 )은 S ch w ar z의 정보판별함수를 이용하여, 회귀모 형에서의 가장 영향력이 큰 하나의 변화점을 찾는 방법으로 귀무가설에서의 통계량을 다음과 같이 제시하였다.
S ICc( n ) = - log L0( 0 , 1 , c
2) + 3 log n
= n log( c
2 )+ n ( 1 + log 2 ) + 3 log n .
(2.4)
여기서 0와 1은 0와 1에 대한 최소제곱추정량이고, 이를 이용한 추정된 회귀 직선 y
i = 0 + 1 xi에 대하여, 분산 2의 추정량은 c2 = 1
n ( y - yi)2이다.
다음은 대립가설 H1에 대한 SIC 통계량을 조사한다. 데이터를 임의의 시점에서 이 분화하여 생성된 미지의 회귀모수 0 1과 11, 그리고 02와 12와 2에 대한 최 우도 추정치는 다음과 같다.
0 1 = yk - 11xk ,
11=
k
i = 1( xi - xk) ( yi - yk) /
k
i = 1( xi - xk)2 ,
02 = yn - k - 12 xn - k ,
12 =
k
i = 1( xi - xn - k) /
k
i = 1( yi - yn - k)
c1
2 = 1
n {i = 1k ( yi - 0 1- 11xi)2 + k = k + 1n ( yi - 02 - 12xi)2}.
여기서
xk = 1 k
k
i = 1xi , yk = 1 k
k
i = 1yi 이고,
xn - k = 1
n - k
n
i = k + 1xi , yn - k = 1
n - k
n
i = k + 1yi
이다. 그러므로, 대립가설 H1에서 k = 2 , , n - 2에 대한 S chw ar z 정보판별 함수는 최우도 함수의 추정값은 다음과 같이 구할 수 있다.
S ICc( k) = - 2 log L1( 0 1, 11, 02, 12, c12) + 5 log n
= n log{ c1
2 }+ n ( 1 + log 2 ) + 5 log n
(2.5)
여기서 L1( 0 1, 11, 02, 12, c12)은 대립가설 H1하에서 최우도 함수이다.
선형회귀모형의 변화점 가설검정을 위한 판정기준은
S ICc( n ) m in { S ICc( k) : 2 k n - 2 }이면 귀무가설 H0을 채택. (2.6) 하고, 이와 반대로 SICc( k) = m in { S ICc( k) : 2 k n - 2 } < S ICc( n ) 이면 대립가 설 H0 을 기각한다. 이 때 변화점 추정을 위한 k 는 { SICc( k ) : 2 k n - 2 } 최소 로하는 k 이고 변화점은 k + 1 이 된다.
2 .2 분산의 변화점추정
독립변수에 따라 분산의 변화가 생길 때, SIC 에 의한 검정방법은 다음과 같다, 즉, 귀무가설 H0: 21 = = 2n = 2와 대립가설 H1: 21 = = 2k0 2k0+ 1=
= 2n 에 대하여, 귀무가설하에서의 SIC 의 정보판별함수 통계량은 다음과 같다.
S ICg( n ) = n log g2 + n ( 1 + log 2 ) + 3 log n . (2.7) 여기서 g2 = 1
n
n
i = 1 ( yi- 0- 1xi)2이다. 대립가설하에서의 SIC 의 통계량:
S ICg ( k) = k log g 1
2 + ( n - k ) log g 2
2 + n ( 1 + log 2 ) + 6 log n , (2.8)
g 1
2 = 1
k
k
i = 1 ( yi- 0 1- 11xi)2, g 22= 1
( n - k)
n
i = k + 1 ( yi- 02- 12xi)2이다.
위의 식 (2.8)의 SICg는 Chen과 Gupta (1997)가 제시한 추정량을 변형하여 제시한 추정량이다. 앞 절의 설명과 같이 어느 변화점을 중심으로 양쪽 데이터들의 각각에 대한 선형회귀모형에서의 평균제곱오차(m ean squ ar e err or , M SE )의 합을 추정하여 M S E 의 합들의 변화에 대한 S IC 의 값들을 관찰한 것이다. 이러한 측면에서 Ch en과 Gu pt a의 추정량과 본 연구에서 제시하는 분산의 변화에 대한 추정량은 다르다. 제시 된 식 (2.8)의 분산의 변화에 대한 통계량을 이용하여 변화점을 추정하는 방법은 다음 의 일반적인 절차를 따른다.
S ICg( k) = m in { S ICg( k ) : 2 k n - 2 }. (2.9) 여기서 k 는 S ICg( k) 를 최소로하는 값이다. 검정에 대한 판단기준을 정하기 위하여, 신뢰계수 에 대하여 관계된 기각값을 c 0이라고 하자. 만약
S ICg( n ) > m in { S ICg( k) : 2 k n - 2 } + c 이라면 귀무가설 H0 을 기각 (2.10) 한다. 그리고 k + 1 의 값을 변화점으로 간주한다. 그러므로 신뢰계수 에 관계된 기 각값 c 에 대하여 다음의 확률이 성립된다.
1 - = P [ S ICg( n ) < m in {S ICg( k ) , 2 k n - 2 } + c | H0 ] . (2.11)
식 (2.11)의 c 의 값은 Gupt a와 Chen (1997)의 연구결과와 비슷한 방법으로 구할 수
있다. 다음 절에서는 위의 두 통계량을 이용한 변화점의 추정 방법을 제시한다.
3 . 제시된 변화점 추정
앞절에서 S chw ar z의 정보판별함수를 이용한 분산의 변화에 따른 변화점 추정방법 S ICg와 Chen에 의해 제시된 회귀직선의의 변화에 따른 변화점 추정 SICc을 관찰 하였다.
앞서 설명한 바와 같이 실제로 어느 시점 x0에서 모평균 변화에 의한 변화점이 발 생되거나 혹은 회귀직선의 변화에 따른 변화점이 발생될 경우에, 그 변화점 x0 을 중 심으로 이웃하고 있는 영역의 국소적인 부분에서의 분산의 변화가 필연적으로 발생하 게 된다. 그러므로 분산의 변화에 대한 통계량 SICg와 회귀직선의 변화에 대한 통계 량 S ICc에 의한 변화점의 추정보다는 두 가지 방법을 혼합한 T IC = ( S ICg +
S ICc) / 2 에 의한 추정이 보다 더 세밀하게 변화점을 관찰할 수 있는 장점을 가진다.
귀무가설에서의 통계량 T IC 를 다음과 같이 정의하자.
T IC ( n ) = ( S ICg( n ) + S IC c( n ) ) / 2
= n
2 {log g2 + log( c2 )}+ n ( 1 + log 2 ) + 3 log n .
(3.1)
대립가설에서의 통계량:
T IC ( k) = ( S ICg( k) + S IC c( k) ) / 2
= k
2 log g 12 + ( n - k)
2 log g 22 + n
2 log ( c1 2 )
+ n ( 1 + log 2 ) + 5 . 5 log n .
(3.2)
변화점 가설검정을 위한 판정기준은
T IC ( n ) m in { T IC ( k) : 3 k n - 4 }이면 귀무가설 H0을 채택 (3.3) 하고, 이와 반대로
T IC ( k1, k2, , ) = loca l arg m in k1, k2 , ,{ T IC ( k) : 3 k n - 4 } < T IC ( n ) (3.4) 이면 H0 을 기각한다. 여기서 k 의 범위는 3 k n - 4 이다. 이는 T IC ( k) 에 포함된 추정된 모수들의 수의 영향을 받았다. 식 (3.4 )에서 loca l arg m in { T IC ( k) :
3 k n - 4 }의 표현은 T IC ( n ) 의 값보다 작은 T IC ( k) , 3 k n - 4 , 값들이 여러 개의 국소적인 집단(clu st er )영역에서 국소적인 최소값 k1, k2, 을 갖는 것을 의미한 다. 이들 국소적인 집단의 개수는 추정된 변화점의 개수로 추정되고, 국소적인 집단영 역의 최소값들 k1, k2, 에 대하여 다음 위치 k1+ 1 , k2+ 1 , 가 변화점의 위치로
추정된다. 그러므로 신뢰계수 에 관계된 기각값 c 에 대하여 다음의 확률이 성립된 다.
1 - = P [ T IC ( n ) < loca l arg m in {T IC ( k ) , 3 k n - 4 } + c | H0 ] . (3.5) 이러한 아이디어는 모집단내의 임의의 k 시점에서 모형의 변화가 발생한다면 k 지 점의 국소적인 부분에서 분산의 변화가 발생하는 것과 동일한 성격을 가진다. 이것은 점프에 의한 변화이던지 분산이나 혹은 회귀직선의 변화에 의한 모형이든 상관없이 모두 통계량 T IC 에 의해 관찰되어질 것이다. 그러므로 제시된 T IC 는 분산의 변화점 이나 회귀모형의 변화점이 둘 다 혼합된 모형에 대한 변화점 추론에 영향력을 가진 다.
4 . 실제 사례의 적용
식 (3.4)의 이해를 돕기위하여 그림 4.1은 H olbert(1982)의 논문에 있는 1967년 1 월부터 1969년 11월까지, 반응변수로 보스톤 증권 회사(Boston St ock Ex change , BSE )의 매월 미화의 판매량과 설명변수로 뉴욕 어메리칸 증권회사(N ew York Am erican St ock Ex ch an g e, N YA M SE )의 매월 미화의 판매량의 데이터 이다.
그림 4 .1 그림 4 .2
그림 4.1의 실선으로 된 부분은 귀무가설 H0에서의 추정된 회귀직선을 나타낸 것 이다. 그림 4.1에서 보듯이 데이터의 모형은 추정된 하나의 회귀직선을 기준으로 데이 터는 등분산성의 성질을 만족하지 않음을 알 수 있다. 그림 4.2와 그림 4.3은 H olb ert 의 데이터를 가지고 분석한 Chen (1998)의 결과이다. Ch en의 결과에 따르면 1968년 12월 (24번째 데이터) 이후의 N Y A M S E 에 대한 B S E 의 선형모형의 변화가 일어나고 있음을 의미한다. 변화점(24번째 데이터)인 1968년 12월 이전과 이후의 데이터들을 분 리하여 회귀모형을 분리하는 것이 보다 바람직함을 알 수 있다
그림 4.4은 Ch en에 의해 두 개의 분리된 회귀모형을 나타낸 그림이다. 그림 4.4에서
모형(1- 23)의 데이터의 집합은 추정된 회귀직선으로부터 N Y A M SE 의 값이 크질수 록 BSE 의 값의 산포가 점점 더 크게 나타나고 있다. 이것은 1에서 23째의 데이터들 사이에서 분산의 변화가 일어나고 있음을 나타낸다. 그러므로 분산의 변화에 대한 변 화점의 추정이 필요하다.
그림 4 .3 그림 4 .4
그림 4.5와 그림 4.6은 식 (3.1)과 식 (3.2)의 제시된 T IC ( n) 과 T IC ( k) 에 대한 그림이다. 식 (3.4)의 T IC ( k) = local arg m in { T IC ( k) : 2 k n - 2 } < T IC ( n ) 의 기각영역에 따라서 k = 9 , 14 , 23 의 3가지 경우의 변화점 k + 1 = 10 , 20 , 24 가 추정되어진다. 그러나 k = 14 인 경우에, T IC ( k) 의 값과 T IC ( n ) 값과의 거리의 차이 가 작게 나타난다. 이에대한 해석은 실제로 가설검정의 기각역 C 의 값의 결정을 요 구한다.
그림 4 .5 그림 4 .6
그림 4.7은 변화점이 3개인 경우 k + 1= 10 , 20 , 24에 대하여 4개의 회귀적선들을 추정한 것이다. 그림 4.7에 나타난 선형회귀 모형들을 자세히 살펴보면 각각의 모형 들의 데이터는 각 추정된 회귀직선을 기준으로 동일하게 분포되어 있음을 알 수 있
다. 또한 시간 k 에 따른 각 추정된 회귀직선들은 서로 다른 모형을 가지고 변하고 있음을 알 수 있다.
그림 4 .7
그림 4 .8
그림 4.8은 신뢰성이 의심스러운 k + 1= 20 인 경우를 제외하고, 변화점이 2개인 경우 k + 1= 10 , 24에 대하여 3개의 회귀적선들을 추정한 것이다. 각 회귀직선을 기준 으로 데이터의 산포된 분포의 정도를 가지고 분석할 때, 그림 4.4의 Chen에 의한 분 석보다도 분산의 안정성을 가짐을 알 수 있다. 그러므로 제시된 T IC 에 의한 변화점의 추정방법은 Chen이 제시한 SIC 에 의한 방법 보다가 더 세밀하게 데이터의 집합내에 서의 변화점들을 더 잘 추정함을 알 수 있다.
참고문헌
1. A k aik e, H . (1973 ). Inform at ion t h eory an d an ex t en sion of t h e m ax im u m lik elih ood prin ciple. I n 2 n d I n terna t ional S y m p os ium on I nf orm a tion T h e ory , E d . B . N . P et r ov an d F . Cs aki, 267 - 281.
2. Ch en , J . (1998) "T est in g for a ch an g e poin t in lin ear r eg r es sion m odels "
Com m un. s ta tis t - T he ory M e th, 27, 2481~2493
3. Ch en , J . & Gupt a , A .K .(1997 ). T est in g an d Locat in g V arian ce
Ch an g poin t s W ith A pplicat ion t o S t ock P rices , J ournal of the A m erican S ta tis tical A s s ocia tion , 92, 739 - 747.
4. S ch w ar z, G. (1978 ). "E st im atin g th e dim en sion of a m odel," A nnals of S ta tis tics , 6, 461- 464.
[ 2002년 9월 접수, 2002년 9월 채택 ]