2017, 28
(5)
,971–980
가변계수 측정오차 회귀모형
†
ᄉ
ᅩᆫ인석
1
· 심주용2
1삼성서울병원 통계자료센터 · 2인제대학교 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 29ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 11ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ
요 약
ᄀ
ᅡᄇ ᅧ ᆫᄀ ᅨᄉ ᅮ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅴ ᄃ ᅩ ᆼᄌ ᅥ ᆨᄇ ᅧ ᆫᄒ ᅪᄅ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪᄒ ᅡ ᆷᄋ ᅳᄅ ᅩᄊ ᅥ ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ
ᅱᄋ ᅮ ᆫ ᄒ ᅢᄉ ᅥ ᆨᄋ ᅵ ᄀ ᅡᄂ ᅳ ᆼ ᄒ ᅡᄀ ᅩ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅴ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄉ ᅥ ᆼᄃ ᅩ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄌ ᅡ ᆼᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄋ ᅳᄆ ᅳᄅ ᅩ, ᄋ ᅧᄅ ᅥ ᄀ ᅪᄒ ᅡ ᆨ ᄇ ᅮ ᆫ ᄋ ᅣ ᄋ
ᅦᄉ ᅥ ᄆ ᅡ ᆭᄋ ᅳ ᆫ ᄌ ᅮᄆ ᅩ ᆨᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄎ ᅮ ᆯᄅ ᅧ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄋ ᅩᄎ ᅡᄅ ᅳ ᆯ ᄒ ᅭᄀ ᅪᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄀ ᅡᄇ ᅧ ᆫ ᄀ
ᅨᄉ ᅮ ᄋ ᅩᄎ ᅡᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅡᄇ ᅧ ᆫᄀ ᅨᄉ ᅮᄀ ᅡ ᄑ ᅧ ᆼᄒ ᅪ ᆯᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄋ ᅡ ᆯᄅ ᅧᄌ ᅵᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳ ᆫ ᄒ ᅧ ᆼᄐ ᅢᄋ ᅴ ᄇ ᅵᄉ ᅥ ᆫᄒ ᅧ ᆼᄒ ᅡ ᆷᄉ ᅮᄋ ᅵᄆ ᅳᄅ ᅩ ᄋ ᅵᄅ ᅳ ᆯ ᄎ ᅮ ᄌ ᅥ
ᆼᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄏ ᅥᄂ ᅥ ᆯ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅦ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄆ ᅵᄎ ᅵᄂ ᅳ ᆫ ᄎ ᅩᄆ ᅩᄉ ᅮᄋ ᅴ ᄎ ᅬᄌ ᅥ ᆨᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄀ ᅮᄒ ᅡ ᄀ
ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄀ ᅭᄎ ᅡᄐ ᅡᄃ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅡ ᆼᄇ ᅥ ᆸ ᄄ ᅩᄒ ᅡ ᆫ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄆ ᅩᄋ ᅴᄌ ᅡᄅ ᅭᄋ ᅪ ᄉ ᅵ ᆯᄌ ᅦᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄉ ᅮ ᄎ
ᅵᄌ ᅥ ᆨ ᄋ ᅧ ᆫᄀ ᅮᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄑ ᅧ ᆼᄀ ᅡ ᄃ ᅬ ᆫ ᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅡᄇ ᅧ ᆫᄀ ᅨᄉ ᅮ ᄆ ᅩᄒ ᅧ ᆼ, ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄀ ᅭᄎ ᅡᄐ ᅡᄃ ᅡ ᆼᄉ ᅥ ᆼᄒ ᅡ ᆷᄉ ᅮ, ᄎ ᅳ ᆨᄌ ᅥ ᆼᄋ ᅩᄎ ᅡ ᄆ ᅩᄒ ᅧ ᆼ, ᄏ ᅥᄂ ᅥ ᆯᄇ ᅡ ᆼᄇ ᅥ ᆸ, ᄑ ᅧ ᆼᄒ ᅪ ᆯᄇ ᅧ ᆫᄉ ᅮ.
1. 서론
Hastie와 Tibshirani (1993)에 의해 소개된 가변계수모형은 회귀계수의 동적인 변화를 모형화할 때 ᄆ
ᅢ우 유연하고 강력하다. 가변계수모형은 고전적인 선형회귀모형의 유용한 확장된 형태이며 회귀계수 ᄅ
ᅳᆯ단지 상수로 설정하지 않고, 다른 입력변수의 값에 따라 변화하는 함수형태로 가정한다(이때 그 입 ᄅ
ᅧ
ᆨ변수를평활변수 혹은환경변수라고 한다). 평활변수로는주로 시간, 위치 좌표 등이 사용될수 있다.
ᄐ ᅳ
ᆨ히 평활변수로 시간이 사용된 경우 시간가변계수모형 (time-varying coefficient model)이라고 한다.
ᄀ
ᅳ리고 평활변수의 변화에 영향을 받지 않는 회귀계수가 존재하는 경우 준가변계수모형 (semivarying coefficient model: Zhang등, 2002)이라고 한다. 가변계수모형에서는선형모형과 같이 회귀계수를 이 ᄋ
ᅭ
ᆼ하여 종속변수와 입력변수의관계에 대한 쉬운해석이 가능하고 회귀계수의 변동성도 추정할 수 있다.
ᄋ
ᅵ것이 선형모형과 다른형태의 비모수모형보다 더 나은장점이된다.
ᄋ
ᅨ를 들어 임금,교육연수, 성별변수 (남=1, 여=0)로 이루어진 자료에서 남녀의 평균 임금차이에관 시
ᆷ이 있다고 가정한다. 주어진 자료의 교육연수에 따른남녀 임금의 산점도 (Figure 1.1)에서, 교육연수 ᄋ
ᅦ 따른평균임금 (실선)을살펴보면, 교육연수가 낮은 경우 남성과 여성의 평균임금이 차이가 많이 나 ᄌ
ᅵ만, 교육연수가 증가함에 따라 평균 임금의 차이가 감소함을알 수 있다
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ, 2017ᄂ ᅧ ᆫᄃ ᅩ ᄒ ᅡᄇ ᅡ ᆫᄀ ᅵ ᄋ ᅵᄀ ᅩ ᆼ ᄒ ᅡ ᆨᄀ ᅢᄋ ᅵ ᆫᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄌ ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅧ ᆯᄀ ᅪᄋ ᅵ ᆷ. (NRF- 2015R1D1A1A01056582), (NRF-2017R1D1A1B03029792).
1
(06351) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄀ ᅡ ᆼᄂ ᅡ ᆷᄀ ᅮ ᄋ ᅵ ᆯᄋ ᅯ ᆫᄃ ᅩ ᆼ ᄉ ᅡ ᆷᄉ ᅥ ᆼᄉ ᅥᄋ ᅮ ᆯᄇ ᅧ ᆼᄋ ᅯ ᆫ, ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅡᄅ ᅭᄉ ᅦ ᆫᄐ ᅥ, ᄉ ᅥ ᆫᄋ ᅵ ᆷ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (50834) ᄀ ᅧ ᆼᄂ ᅡ ᆷ ᄀ ᅵ ᆷᄒ ᅢᄉ ᅵ ᄋ ᅥᄇ ᅡ ᆼᄃ ᅩ ᆼ, ᄋ ᅵ ᆫᄌ ᅦᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅧ ᆷᄋ ᅵ ᆷᄀ ᅭᄉ ᅮ. E-mail: [email protected]
Figure 1.1 Plots of wage versus education
이
ᆯ반적으로 주어진 자료에 대하여 선형회귀모형은다음과 같이 표현할 수 있다.
y = β0+ β1x + β2u + e, ᄋ
ᅧ기서 y는 종속변수 (임금), x는성별변수, u는교육연수이고, e는평균이 0이고 유한 분산인 분포를 ᄀ
ᅡ지는오차항이다.
ᄀ
ᅭ육연수를평활변수 (ui)로 가정하는가변계수모형은다음과 같이 표현할 수 있다.
y = β0(u) + β1(u)x + e.
ᄌ
ᅡ료 {ui· xi, yi}ni=1를이용하면, 평활변수 ui가 주어진 경우 βββ(ut) = (β0(ut), β1(ut)′ 의 추정값은 ᄌ
ᅮ로 다음과 같은 국소가중다항회귀의 최적화문제의 해로서 구해진다.
minL(βββ) =
n
X
i=1
W (ut− ui)(yi− βββ′Xi)2, ᄋ
ᅧ기서 Xi′ = (1, xi)이고 W (ut− ui)는 (ut− ui)의 커널함수 (kernel function)이다.
ᄉ
ᅥᆫ형회귀모형에서 남녀의 임금차이는성별변수에 대응하는 회귀계수 (β1)의 값으로 나타날 수 있는 ᄃ
ᅦ Figure 1.2의왼쪽그림과 같이 선형회귀모형에서는회귀계수 β1의 추정값은교육연수의 변화에 따 ᄅ
ᅡ 상수로 나타난다. 이것은 교육연수가 증가하더라도 남여의 임금 차이가 일정하게(>0) 유지된다는 ᄄ
ᅳ ᆺ이다.
Figure 1.2 Plots of β
1versus education
ᄀ
ᅡ변계수모형에서는 Figure 1.2의 오른쪽그림과 같이 회귀계수 β1의 추정값은교육연수가 증가함에 ᄄ
ᅡ라 0으로 감소한다. 이는 교육연수가 증가하면 남여의 임금 차이가 거의 존재하지 않게된다는 뜻이
ᄃ
ᅡ. 따라서 예로서 주어진 자료와 같이 종속변수와 입력변수의관계가 평활변수의 값에 따라 변화하는 혀
ᆼ태의 자료의 분석에서는선형회귀모형보다 가변계수모형이 많은장점을보임을알 수 있다.
ᄀ
ᅡ변계수모형은 최근 통계분야에서 인기를얻어 비모수 회귀모형, 일반화선형모형 (generalized lin- ear model),비선형시계열모형, 경시적 (longitudinal) 자료 분석, 생존 (survival)자료 분석 등에도 응 ᄋ
ᅭ
ᆼ 범위를 넓혀가고 있다. 기본개념 및 다양한 응용과 연구 분야는 Hoover 등 (1998), Fan과 Zhang (2008)에서 찾을 수 있다. 또한 가변계수를 추정하고 분석하는 방법으로서 국소다항회귀, 커널평활, ᄃ
ᅡ항식스플라인, 평활스플라인 등이 많이 사용되고 있다. 가변계수모형의 추정에 대한 내용은 Fan과 Zhang (2008), Li와 Racine (2010), Lee 등 (2012), Xue와 Qu (2012)에 설명되어 있다.
이
ᆯ반적인 회귀모형에서와는달리 입력변수의 값을관찰하는데 오차가 수반된다는가정에서의 모형을 ᄎ
ᅳᆨ정오차모형이라고 하며 이 경우 일반적인 선형회귀분석에서 측정오차가 무시되는경우 회귀계수의 추 저
ᆼ량은편의추정량이 되고 일치성을유지하지 못한다 (Fuller, 1987; Caroll 등, 1997). 기본개념 및 다 ᄋ
ᅣᆼ한 응용과 연구 분야는 Boggs와 Rogers (1990), Van Gorp 등(2000), Hu와 Schennach (2008), Shim (2014)에서 찾을수 있다.
보
ᆫ 논문에서는커널기법과 가변계수모형을 측정오차모형에 적용하여 입력변수에 측정오차가 있는경 ᄋ
ᅮ 가변계수를추정할 수 있는가변계수 측정오차 회귀모형을제안 한다. 모형 선택의 방법으로는수정 되
ᆫ 형태의 일반화 교차타성함수를사용한다. 2절에서는가변계수 측정오차 회귀모형을제안하고 3절에 ᄉ
ᅥ는 일반화 교차타당성함수를사용하는모형 선택방법을제안한다. 4절에서는제안된방법을모의자료 ᄋ
ᅪ 실제자료에 적용하여 다른방법들과 성능을비교한다.
2. 가변계수 측정오차 회귀모형 ᄌ
ᅮ어진 자료를{uuui, xxxi, yi}ni=1라고 표기하기로 한다. 여기서 uuui∈ Rdu는평활벡터, xxxi∈ Rdx는 입력벡 ᄐ
ᅥ이고 평균이 xxx∗i이고 공분산이 σ2eIdx (Idx는 dx× dx 단위행렬)인 대칭분포에서관측되었다고 가정한 ᄃ
ᅡ. 그리고 다음과 같이 종속변수 yi∈ R는 uuui에 조건적으로 xxx∗i와 선형적으로 연결되어 있다고 가정한 ᄃ
ᅡ.
yi= f (uuui, xxx∗i) + ei=
dx
X
k=0
Xik∗βk(uuui) + ei, i = 1, · · · , n, (2.1)
ᄋ
ᅧ기서 XXX∗i = 1 xxx∗i
!
, ei는 평균이 0이고 분산이 σe2인 대칭분포를 독립적으로 따르는오차항이다. 평 화
ᆯ벡터 uuui가 주어진 경우 V (yi) = σe2(1 +Pdx
k=1βk(uuui)2)이다. 정규오차를 가정하고 주어진 자료 {uuui, xxxi, yi}ni=1를 이용하면 Madansky (1959)가 제안한 방법에 의하면 βk(uuui)의 추정값은 다음의 직 ᄀ
ᅭ잔차제곱합 (sum of squared orthogonal residuals)을최소화함으로써 구해질 수 있다.
n
X
i=1
yi−Pdx
k=0Xikβk(uuui) pV (yi)
!2
=
n
X
i=1
yi−Pdx
k=0Xikβk(uuui) σe
q 1 +Pdx
k=1βk(uuui)2
2
. (2.2)
시
ᆨ (2.1)에서 βk(uuui)가 평활벡터 uuui와 다음과 같이 비선형적으로 연결되어 있다고 가정한다.
βk(uuui) = ωωω′kϕ(uuui) + bk, k = 0, · · · , dx,
ᄋ
ᅧ기서 ωωωk는 k번째 입력변수와 ϕ(uuui)에 대응하는 weight 벡터이고 ϕ(·)는비선형 특징사상함수이다.
(ωωωk, bk)의 추정을위하여 다음과 같은최적화문제를고려한다.
minL =1 2
dx
X
k=0
||ωωωk||2+C 2
n
X
i=1
w−1i (yi−
dx
X
k=0
Xikβk(uuui))2 (2.3)
=1 2
dx
X
k=0
||ωωωk||2+C 2
n
X
i=1
w−1i (yi−
dx
X
k=0
Xik(ωωωkϕ(uuui) + bk))2, (2.4)
ᄋ
ᅧ기서 C > 0 벌칙상수, wi=
1 +Pdx
k=1βk(uuui)2
=
1 +Pdx
k=1(ωωωkϕ(uuui) + bk)2 ᄋ ᅵ다.
yi가 f(uuui, xxxi) = Pdx
k=0Xikβk(uuui)에 매우 가까운 경우 f(uuui, xxxi) = Pdx
k=0Xikβk(uuui)(yi− Pdx
k=0Xikβk(uuui))2는 βk(uuui)들의 볼록 (convex)함수가 되므로, yi가 f(uuui, xxxi) = Pdx
k=0Xik(ωωωkϕ(uuui)+
bk)에 매우 가까운경우 최적화문제 (2.3)의 목적함수는 (ωωωk, bk)의 볼록함수가됨을보일 수 있다. 따 ᄅ
ᅡ서 최적화문제 (2.3)의 해는 존재하고, (ωωωk, bk)의 추정값은최적화문제 (2.3)의 해 (solution)를구함 ᄋ
ᅳ로써 얻어질 수 있다.
ᄄ
ᅡ라서 (ωωωk, bk)의 추정값을다음최적화문제의 해로서 정의한다.
min1 2
dx
X
k=0
||ωωωk||2+C 2
n
X
i=1
wi−1e2i. (2.5)
ᄌ
ᅦ약조건은 1
2
Pdx
k=0||ωωωk||2+C2 Pn
i=1wi−1e2i, i = 1, · · · , n이다.
ᄋ
ᅱ의 최적화문제의 라그랑제 함수는다음과 같이 구해진다.
L =1 2
dx
X
k=0
||ωωωk||2+C 2
n
X
i=1
w−1i e2i −
n
X
i=1
αi(ei− yi+
dx
X
k=1
xik(ωωωkϕ(uuui) + bk)),
ᄋ
ᅧ기서 αi는라그랑제 배수이고 최적화 조건 (conditions for optimality)을이용하면 다음의 결과를얻 으
ᆯ수 있다.
∂L
∂ωωωk
= 000 → ωωωk=
n
X
i=1
Xikϕ(uuui)αi, k = 0, · · · , dz,
∂L
∂bk
= 0 →
n
X
i=1
Xikαi= 0, k = 0, · · · , dz,
∂L
∂ei
= 0 → Cw−1i ei− αi= 0, i = 1, · · · , n,
∂L
∂αi
= 0 → ei− yi−
dx
X
k=0
Xik(ωωωkϕ(uuui) + bk) = ‘0, i = 1, · · · , n.
ᄋ
ᅱ의 결과와 Mercer의 조건 (1906)을이용하면 최적 라그랑제 배수 (ˆαi)와 ˆbk은다음의 선형방정식 ᄋ
ᅴ 해로서 구해진다.