Varying coefficient model with errors in variables

(1)

2017, 28

(

5)

,

971–980

가변계수 측정오차 회귀모형

^†

ᄉ

ᅩᆫ인석

¹

· 심주용

²

1삼성서울병원 통계자료센터 · ²인제대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 29ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 11ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ

요 약

ᄀ

ᅡᄇ ᅧ ᆫᄀ ᅨᄉ ᅮ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅴ ᄃ ᅩ ᆼᄌ ᅥ ᆨᄇ ᅧ ᆫᄒ ᅪᄅ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄒ ᅪᄒ ᅡ ᆷᄋ ᅳᄅ ᅩᄊ ᅥ ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ

ᅱᄋ ᅮ ᆫ ᄒ ᅢᄉ ᅥ ᆨᄋ ᅵ ᄀ ᅡᄂ ᅳ ᆼ ᄒ ᅡᄀ ᅩ ᄒ ᅬᄀ ᅱᄀ ᅨᄉ ᅮᄋ ᅴ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄉ ᅥ ᆼᄃ ᅩ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄌ ᅡ ᆼᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄋ ᅳᄆ ᅳᄅ ᅩ, ᄋ ᅧᄅ ᅥ ᄀ ᅪᄒ ᅡ ᆨ ᄇ ᅮ ᆫ ᄋ ᅣ ᄋ

ᅦᄉ ᅥ ᄆ ᅡ ᆭᄋ ᅳ ᆫ ᄌ ᅮᄆ ᅩ ᆨᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄎ ᅮ ᆯᄅ ᅧ ᆨᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄋ ᅩᄎ ᅡᄅ ᅳ ᆯ ᄒ ᅭᄀ ᅪᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄀ ᅩᄅ ᅧᄒ ᅡ ᆫ ᄀ ᅡᄇ ᅧ ᆫ ᄀ

ᅨᄉ ᅮ ᄋ ᅩᄎ ᅡᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅡᄇ ᅧ ᆫᄀ ᅨᄉ ᅮᄀ ᅡ ᄑ ᅧ ᆼᄒ ᅪ ᆯᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄋ ᅡ ᆯᄅ ᅧᄌ ᅵᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳ ᆫ ᄒ ᅧ ᆼᄐ ᅢᄋ ᅴ ᄇ ᅵᄉ ᅥ ᆫᄒ ᅧ ᆼᄒ ᅡ ᆷᄉ ᅮᄋ ᅵᄆ ᅳᄅ ᅩ ᄋ ᅵᄅ ᅳ ᆯ ᄎ ᅮ ᄌ ᅥ

ᆼᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄏ ᅥᄂ ᅥ ᆯ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅦ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄆ ᅵᄎ ᅵᄂ ᅳ ᆫ ᄎ ᅩᄆ ᅩᄉ ᅮᄋ ᅴ ᄎ ᅬᄌ ᅥ ᆨᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄀ ᅮᄒ ᅡ ᄀ

ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄀ ᅭᄎ ᅡᄐ ᅡᄃ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅡ ᆼᄇ ᅥ ᆸ ᄄ ᅩᄒ ᅡ ᆫ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄆ ᅩᄋ ᅴᄌ ᅡᄅ ᅭᄋ ᅪ ᄉ ᅵ ᆯᄌ ᅦᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄉ ᅮ ᄎ

ᅵᄌ ᅥ ᆨ ᄋ ᅧ ᆫᄀ ᅮᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄑ ᅧ ᆼᄀ ᅡ ᄃ ᅬ ᆫ ᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅡᄇ ᅧ ᆫᄀ ᅨᄉ ᅮ ᄆ ᅩᄒ ᅧ ᆼ, ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄀ ᅭᄎ ᅡᄐ ᅡᄃ ᅡ ᆼᄉ ᅥ ᆼᄒ ᅡ ᆷᄉ ᅮ, ᄎ ᅳ ᆨᄌ ᅥ ᆼᄋ ᅩᄎ ᅡ ᄆ ᅩᄒ ᅧ ᆼ, ᄏ ᅥᄂ ᅥ ᆯᄇ ᅡ ᆼᄇ ᅥ ᆸ, ᄑ ᅧ ᆼᄒ ᅪ ᆯᄇ ᅧ ᆫᄉ ᅮ.

1. 서론

Hastie와 Tibshirani (1993)에 의해 소개된 가변계수모형은 회귀계수의 동적인 변화를 모형화할 때 ᄆ

ᅢ우 유연하고 강력하다. 가변계수모형은 고전적인 선형회귀모형의 유용한 확장된 형태이며 회귀계수 ᄅ

ᅳᆯ단지 상수로 설정하지 않고, 다른 입력변수의 값에 따라 변화하는 함수형태로 가정한다(이때 그 입 ᄅ

ᅧ

ᆨ변수를평활변수 혹은환경변수라고 한다). 평활변수로는주로 시간, 위치 좌표 등이 사용될수 있다.

ᄐ ᅳ

ᆨ히 평활변수로 시간이 사용된 경우 시간가변계수모형 (time-varying coefficient model)이라고 한다.

ᄀ

ᅳ리고 평활변수의 변화에 영향을 받지 않는 회귀계수가 존재하는 경우 준가변계수모형 (semivarying coefficient model: Zhang등, 2002)이라고 한다. 가변계수모형에서는선형모형과 같이 회귀계수를 이 ᄋ

ᅭ

ᆼ하여 종속변수와 입력변수의관계에 대한 쉬운해석이 가능하고 회귀계수의 변동성도 추정할 수 있다.

ᄋ

ᅵ것이 선형모형과 다른형태의 비모수모형보다 더 나은장점이된다.

ᄋ

ᅨ를 들어 임금,교육연수, 성별변수 (남=1, 여=0)로 이루어진 자료에서 남녀의 평균 임금차이에관 시

ᆷ이 있다고 가정한다. 주어진 자료의 교육연수에 따른남녀 임금의 산점도 (Figure 1.1)에서, 교육연수 ᄋ

ᅦ 따른평균임금 (실선)을살펴보면, 교육연수가 낮은 경우 남성과 여성의 평균임금이 차이가 많이 나 ᄌ

ᅵ만, 교육연수가 증가함에 따라 평균 임금의 차이가 감소함을알 수 있다

†

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ, 2017ᄂ ᅧ ᆫᄃ ᅩ ᄒ ᅡᄇ ᅡ ᆫᄀ ᅵ ᄋ ᅵᄀ ᅩ ᆼ ᄒ ᅡ ᆨᄀ ᅢᄋ ᅵ ᆫᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄌ ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅧ ᆯᄀ ᅪᄋ ᅵ ᆷ. (NRF- 2015R1D1A1A01056582), (NRF-2017R1D1A1B03029792).

1

(06351) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄀ ᅡ ᆼᄂ ᅡ ᆷᄀ ᅮ ᄋ ᅵ ᆯᄋ ᅯ ᆫᄃ ᅩ ᆼ ᄉ ᅡ ᆷᄉ ᅥ ᆼᄉ ᅥᄋ ᅮ ᆯᄇ ᅧ ᆼᄋ ᅯ ᆫ, ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅡᄅ ᅭᄉ ᅦ ᆫᄐ ᅥ, ᄉ ᅥ ᆫᄋ ᅵ ᆷ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (50834) ᄀ ᅧ ᆼᄂ ᅡ ᆷ ᄀ ᅵ ᆷᄒ ᅢᄉ ᅵ ᄋ ᅥᄇ ᅡ ᆼᄃ ᅩ ᆼ, ᄋ ᅵ ᆫᄌ ᅦᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅧ ᆷᄋ ᅵ ᆷᄀ ᅭᄉ ᅮ. E-mail: [email protected]

(2)

Figure 1.1 Plots of wage versus education

이

ᆯ반적으로 주어진 자료에 대하여 선형회귀모형은다음과 같이 표현할 수 있다.

y = β0+ β1x + β2u + e, ᄋ

ᅧ기서 y는 종속변수 (임금), x는성별변수, u는교육연수이고, e는평균이 0이고 유한 분산인 분포를 ᄀ

ᅡ지는오차항이다.

ᄀ

ᅭ육연수를평활변수 (uⁱ)로 가정하는가변계수모형은다음과 같이 표현할 수 있다.

y = β0(u) + β1(u)x + e.

ᄌ

ᅡ료 {ui· xi, yi}ⁿi=1를이용하면, 평활변수 ui가 주어진 경우 βββ(ut) = (β0(ut), β1(ut)^′ 의 추정값은 ᄌ

ᅮ로 다음과 같은 국소가중다항회귀의 최적화문제의 해로서 구해진다.

minL(βββ) =

n

X

i=1

W (ut− ui)(yi− βββ^′Xi)², ᄋ

ᅧ기서 Xi^′ = (1, xi)이고 W (ut− ui)는 (ut− ui)의 커널함수 (kernel function)이다.

ᄉ

ᅥᆫ형회귀모형에서 남녀의 임금차이는성별변수에 대응하는 회귀계수 (β1)의 값으로 나타날 수 있는 ᄃ

ᅦ Figure 1.2의왼쪽그림과 같이 선형회귀모형에서는회귀계수 β¹의 추정값은교육연수의 변화에 따 ᄅ

ᅡ 상수로 나타난다. 이것은 교육연수가 증가하더라도 남여의 임금 차이가 일정하게(>0) 유지된다는 ᄄ

ᅳ ᆺ이다.

Figure 1.2 Plots of β

₁

versus education

ᄀ

ᅡ변계수모형에서는 Figure 1.2의 오른쪽그림과 같이 회귀계수 β¹의 추정값은교육연수가 증가함에 ᄄ

ᅡ라 0으로 감소한다. 이는 교육연수가 증가하면 남여의 임금 차이가 거의 존재하지 않게된다는 뜻이

(3)

ᄃ

ᅡ. 따라서 예로서 주어진 자료와 같이 종속변수와 입력변수의관계가 평활변수의 값에 따라 변화하는 혀

ᆼ태의 자료의 분석에서는선형회귀모형보다 가변계수모형이 많은장점을보임을알 수 있다.

ᄀ

ᅡ변계수모형은 최근 통계분야에서 인기를얻어 비모수 회귀모형, 일반화선형모형 (generalized lin- ear model),비선형시계열모형, 경시적 (longitudinal) 자료 분석, 생존 (survival)자료 분석 등에도 응 ᄋ

ᅭ

ᆼ 범위를 넓혀가고 있다. 기본개념 및 다양한 응용과 연구 분야는 Hoover 등 (1998), Fan과 Zhang (2008)에서 찾을 수 있다. 또한 가변계수를 추정하고 분석하는 방법으로서 국소다항회귀, 커널평활, ᄃ

ᅡ항식스플라인, 평활스플라인 등이 많이 사용되고 있다. 가변계수모형의 추정에 대한 내용은 Fan과 Zhang (2008), Li와 Racine (2010), Lee 등 (2012), Xue와 Qu (2012)에 설명되어 있다.

이

ᆯ반적인 회귀모형에서와는달리 입력변수의 값을관찰하는데 오차가 수반된다는가정에서의 모형을 ᄎ

ᅳᆨ정오차모형이라고 하며 이 경우 일반적인 선형회귀분석에서 측정오차가 무시되는경우 회귀계수의 추 저

ᆼ량은편의추정량이 되고 일치성을유지하지 못한다 (Fuller, 1987; Caroll 등, 1997). 기본개념 및 다 ᄋ

ᅣᆼ한 응용과 연구 분야는 Boggs와 Rogers (1990), Van Gorp 등(2000), Hu와 Schennach (2008), Shim (2014)에서 찾을수 있다.

보

ᆫ 논문에서는커널기법과 가변계수모형을 측정오차모형에 적용하여 입력변수에 측정오차가 있는경 ᄋ

ᅮ 가변계수를추정할 수 있는가변계수 측정오차 회귀모형을제안 한다. 모형 선택의 방법으로는수정 되

ᆫ 형태의 일반화 교차타성함수를사용한다. 2절에서는가변계수 측정오차 회귀모형을제안하고 3절에 ᄉ

ᅥ는 일반화 교차타당성함수를사용하는모형 선택방법을제안한다. 4절에서는제안된방법을모의자료 ᄋ

ᅪ 실제자료에 적용하여 다른방법들과 성능을비교한다.

2. 가변계수 측정오차 회귀모형 ᄌ

ᅮ어진 자료를{uuui, xxxi, yi}ⁿ_i=1라고 표기하기로 한다. 여기서 uuui∈ R^d_u는평활벡터, xxxi∈ R^d_x는 입력벡 ᄐ

ᅥ이고 평균이 xxx^∗i이고 공분산이 σ²eIdx (Idx는 dx× dx 단위행렬)인 대칭분포에서관측되었다고 가정한 ᄃ

ᅡ. 그리고 다음과 같이 종속변수 yⁱ∈ R는 uuui에 조건적으로 xxx^∗i와 선형적으로 연결되어 있다고 가정한 ᄃ

ᅡ.

yi= f (uuui, xxx^∗_i) + ei=

d_x

X

k=0

X_ik^∗βk(uuui) + ei, i = 1, · · · , n, (2.1)

ᄋ

ᅧ기서 XXX^∗i = 1 xxx^∗_i

!

, ei는 평균이 0이고 분산이 σe²인 대칭분포를 독립적으로 따르는오차항이다. 평 화

ᆯ벡터 uuui가 주어진 경우 V (yⁱ) = σe²(1 +Pd_x

k=1βk(uuui)²)이다. 정규오차를 가정하고 주어진 자료 {uuui, xxxi, yi}ⁿ_i=1를 이용하면 Madansky (1959)가 제안한 방법에 의하면 βk(uuui)의 추정값은 다음의 직 ᄀ

ᅭ잔차제곱합 (sum of squared orthogonal residuals)을최소화함으로써 구해질 수 있다.

n

X

i=1

yi−Pd_x

k=0X_ikβk(uuui) pV (yi)

!2

=

n

X

i=1





yi−Pd_x

k=0X_ikβk(uuui) σe

q 1 +Pdx

k=1βk(uuui)²





2

. (2.2)

시

ᆨ (2.1)에서 βk(uuui)가 평활벡터 uuui와 다음과 같이 비선형적으로 연결되어 있다고 가정한다.

βk(uuui) = ωωω^′kϕ(uuui) + bk, k = 0, · · · , dx,

(4)

ᄋ

ᅧ기서 ωωωk는 k번째 입력변수와 ϕ(uuui)에 대응하는 weight 벡터이고 ϕ(·)는비선형 특징사상함수이다.

(ωωωk, bk)의 추정을위하여 다음과 같은최적화문제를고려한다.

minL =1 2

dx

X

k=0

||ωωωk||²+C 2

n

X

i=1

w⁻¹_i (yi−

dx

X

k=0

Xikβk(uuui))² (2.3)

=1 2

dx

X

k=0

||ωωωk||²+C 2

n

X

i=1

w⁻¹_i (yi−

dx

X

k=0

Xik(ωωωkϕ(uuui) + bk))², (2.4)

ᄋ

ᅧ기서 C > 0 벌칙상수, wi=

1 +Pdx

k=1βk(uuui)²

=

1 +Pdx

k=1(ωωωkϕ(uuui) + bk)² ᄋ ᅵ다.

yi가 f(uuui, xxxi) = Pdx

k=0Xikβk(uuui)에 매우 가까운 경우 f(uuui, xxxi) = Pdx

k=0Xikβk(uuui)(yi− Pd_x

k=0Xikβk(uuui))²는 βk(uuui)들의 볼록 (convex)함수가 되므로, yⁱ가 f(uuui, xxxi) = Pd_x

k=0Xik(ωωωkϕ(uuui)+

bk)에 매우 가까운경우 최적화문제 (2.3)의 목적함수는 (ωωωk, bk)의 볼록함수가됨을보일 수 있다. 따 ᄅ

ᅡ서 최적화문제 (2.3)의 해는 존재하고, (ωωωk, bk)의 추정값은최적화문제 (2.3)의 해 (solution)를구함 ᄋ

ᅳ로써 얻어질 수 있다.

ᄄ

ᅡ라서 (ωωωk, bk)의 추정값을다음최적화문제의 해로서 정의한다.

min1 2

d_x

X

k=0

||ωωωk||²+C 2

n

X

i=1

w_i⁻¹e²_i. (2.5)

ᄌ

ᅦ약조건은 ¹

2

Pd_x

k=0||ωωωk||²+^C₂ Pn

i=1w_i⁻¹e²_i, i = 1, · · · , n이다.

ᄋ

ᅱ의 최적화문제의 라그랑제 함수는다음과 같이 구해진다.

L =1 2

dx

X

k=0

||ωωωk||²+C 2

n

X

i=1

w⁻¹_i e²i −

n

X

i=1

αi(ei− yi+

dx

X

k=1

xik(ωωωkϕ(uuui) + bk)),

ᄋ

ᅧ기서 αⁱ는라그랑제 배수이고 최적화 조건 (conditions for optimality)을이용하면 다음의 결과를얻 으

ᆯ수 있다.

∂L

∂ωωωk

= 000 → ωωωk=

n

X

i=1

Xikϕ(uuui)αi, k = 0, · · · , dz,

∂L

∂bk

= 0 →

n

X

i=1

Xikαi= 0, k = 0, · · · , dz,

∂L

∂ei

= 0 → Cw⁻¹_i ei− αi= 0, i = 1, · · · , n,

∂L

∂αi

= 0 → ei− yi−

d_x

X

k=0

Xik(ωωωkϕ(uuui) + bk) = ‘0, i = 1, · · · , n.

ᄋ

ᅱ의 결과와 Mercer의 조건 (1906)을이용하면 최적 라그랑제 배수 (ˆαi)와 ˆbk은다음의 선형방정식 ᄋ

ᅴ 해로서 구해진다.