가된다.

(1)

회귀분석

2. 단순회귀분석(simple regression analysis) 2.1 단순회귀모형과 적합

회귀분석의 목적은 결국 두 변수 간에 직선관계가 있을 때 이러한 관계를 표현하 는 1차식을 추정하는 데 있다. 일반적으로 설명변수 ^x1,⋯,x_n와 반응변수 ^y1,⋯,y_n 사이 에 다음과 같은 선형관계식을 가정할 수 있다.

단순회귀모형 :

^



   

_

 

_

  ⋯ 

이다. 여기서 ^εi (i = 1,⋯,n )은 오차항으로 평균이 0이고 분산이 ^σ²인 정규분포를 따르 며 각각의 ^εi들은 서로 독립이다. 이 때 ^α^,β를 회귀계수라고 한다. 이제 주어진 데이 터로부터 이들 회귀계수를 추정하여 적절한 직선관계식을 찾으면 된다. 이러한 기준 으로 흔히 사용되는 방법이 최소제곱법(least squares method)이다. 즉, 오차들의 제곱합

∑_iⁿ

= 1(y_i- α- βx_i)²

을 최소로 하는 ^α^,β를 찾는다. ^α^,β의 추정치 ^a,b는 오차의 제곱합을 ^α와 ^β에 대해서 편미분하여 얻게 되며 각각

b= ∑_i_{= 1}ⁿ (x_i-x)( y_i-y) / ∑_i_{= 1}ⁿ (x_i-x)²= Sxy

S_xx a =y-bx

로 구해진다. 따라서 추정된 회귀식은

yi

ˆ =a +bxi (i = 1,⋯,n)

가 된다.

(2)

2.2 회귀계수의 추론

만약 회귀계수^β^{= 0}이라면 두 변수사이에 아무런 직선관계가 없음을 의미한다. 이 의 검정은

^



   

이라는 귀무가설 하에서 다음과 같은 검정통계량

t= b s/ S_xx

이 자유도가 ^{n -2}인 t-분포를 따른다는 것을 이용한다. 여기서 ^s²은 오차분산의 추정 량으로 ^s= _i∑_{= 1}ⁿ (yi-a -bxi)²/(n -2)이며, ^Sxx= ∑_i_{= 1}ⁿ (xi-x)²이다. 따라서 유의수준 ^α에서 귀무가 설과 대립가설의 형태에 따른 기각역은 다음과 같이 정리된다.

 H0:β = 0 vs. ^H1:β > 0 일 때, ^{t > t}^α^{(n -2)}이면 귀무가설 기각

 H0:β = 0 vs. ^H1:β < 0 일 때, ^{t <-t}^α^{(n -2)}이면 귀무가설 기각

 H0:β = 0 vs. ^H1:β≠0 일 때, |t | > tα/2(n -2)이면 귀무가설 기각

한편 ^β의 100(1-^α)% 신뢰구간은 다음과 같다.

(

^b-t^α/2^{(n -2)×} S^s_xx,b+ tα/2(n -2) × sS_xx

)

2.4 예측치에 대한 추론

회귀분석의 목적 중 하나는 설명변수의 값이 주어졌을 때 반응변수가 취할 것으 로 기대되는 값

^

를 예측하는 것이다. 설명변수가 ^{x= x}0값일 때 ^y의 추정치인 ^yˆ의 분산은

Var ( yˆ) = σ²

{

^{n +}¹ ^∑_iⁿ= 1^(x(x⁰^-_i-^x)x)²²

}

으로 알려져 있으며, ^yˆ는 정규분포를 따르는 것으로 알려져 있다. 이에 근거하여

x= x₀일 때 반응변수의 평균값 ^E(y)의 100(1-^α)% 신뢰구간은

(3)

(a + bx0)±tα/2(n -2) s²

{

^{n +}¹ ^∑_i_{= 1}ⁿ^(x^(x⁰^-ⁱ^-^x)^x)²²

}

이 된다. 이것은 설명변수가 ^{x= x}⁰일 때 평균반응,       _에 대한 신뢰구간이다.

2.5 결정계수

회귀직선의 적합도를 평가하는 방법으로 회귀가 전체변동을 얼마만큼 설명하고 있 는지 알아보는 방법이 있다. 이를 위하여 분산분석법에서 했던 것처럼 총제곱합을 분해하여 보자. 한 관측치 ^yi와 ^y간의 차이를 추정된 ^yˆi을 통해서 분해하여 보면

yi-y= (yi- yˆi)+(ˆ -yi y)

로 나눌 수 있다. 여기서 한 관측치과 추정치의 차이 ^yi- yˆi는 전체변동에서 회귀식 으로 설명할 수 없는 부분을 나타내며 이를 잔차(residual)라고 한다. 또한 ˆ -^yi y는 회귀식으로 설명되는 부분이다. 이제 위의 식에 양변을 제곱하고 관측치 전체를 고 려하면

∑_i_{= 1}ⁿ (yi-y)²= ∑_i_{= 1}ⁿ (yi- yˆi)²+ ∑_i_{= 1}ⁿ ⁽ yˆi-y)²

( SST = SSE + SSR )

로 나타낼 수 있다. 여기서 ^SST를 총제곱합, ^SSE를 오차제곱합이라고 하고 ^SSR을 회 귀제곱합이라고 한다. 회귀제곱합을 전체제곱합으로 나누면

R²= SSRSST = 1- SSE SST

이 된다. 만약 회귀로 설명되는 부분이 많다면 ^R²은 1에 가깝게 되고, 거의 설명을 못한다면 0에 가깝게 될 것이다. 따라서 ^R²을 이용하여 회귀선의 적합성을 판단할 수 있게 되는데, 이를 결정계수(coefficient of determination)라고 한다.

2.6 엑셀을 이용한 단순회귀분석

 『도구』메뉴에서 「데이터분석」을 선택하여 분석도구 중 “회귀분석”을 선택하 고 <확인>을 누른다.

3. 다중회귀분석(multiple regression analysis)

(4)

반응변수 ^yi (i= 1,⋯,n )에 대해서 ^k개의 설명변수 ^x1i,⋯,x_ki가 있다고 하자.

다중회귀모형 :

^



   

_



_

⋯ 

_



_

 

_

여기서 오차항 ^εi는 평균이 0이고 분산이 ^σ²인 정규분포를 따르며 서로 독립인 것을 가정한다. 모형에서는 각 설명변수들과 반응변수간의 선형관계를 가정하고 있다.

3.1 회귀계수의 추론

다중회귀에서도 단순회귀와 마찬가지로 회귀계수 ^β1,β2,⋯,β_k를 추정하기 위해서 최 소제곱법을 이용한다. 즉,

∑_i_{= 1}ⁿ (yi- α - β₁x1i-⋯- β_kxki)²

를 최소화하는 회귀계수를 구한 것이 회귀계수의 추정치 ^a,b1,⋯,bk가 된다. 다중회귀

모형식을 행렬(matrix)로 표현하면











 y1

⋮yn

=









 1 x11 ⋯ x_k1

⋮ ⋮ ⋮ ⋮ 1 x1n ⋯ xkn











 α

⋮ β_k+









 ε₁

⋮ ε_n

이 되며, 이를

y= X β+ ε

로 쓸 수 있다. 여기서 ^y는 반응변수의 벡터이고 ^β는 회귀계수를 나타내는 벡터이 며 ^ε은 오차를 나타내는 벡터이다. 또한 ^X는 설명변수의 값으로 구성된 행렬이다.

회귀계수의 추정치를 나타내는 벡터를 ^{b= ( a,b}1,⋯,b_k)'라고 할 때

b= (X'X)^{- 1}X'y

로 구해진다. 이렇게 하여 구해진 추정식은

y_i

ˆ =a + b1x1i+b2x2i+ ⋯ +b_kx_ki

가 된다.

이제 각각의 회귀계수 ^βj (j = 1,⋯,k)에 대해서 가설 ^H0:β_j= 0를 검정하는 방법을 알 아보자. 이의 검정은 귀무가설 하에서 다음과 같은 검정통계량

(5)

t= b_j s cjj

이 자유도가 ^{n -k-1}인 t-분포를 따른다는 사실을 이용한다. 여기서 ^cjj는 ^{(X' X)}^{- 1}의

(j+1,j+1)번째 원소이고, ^s는 오차분산의 추정치

s²= ∑_i_{= 1}ⁿ (y_i-a - b1x1i-⋯-b_kx_ki)²/(n -k-1)

의 제곱근이다. 유의수준을 ^α라고 했을 때 귀무가설과 대립가설의 형태에 따른 기각 역은 다음과 같이 정리된다. 여기서 ^t^α^{(n -k-1)}은 자유도 ^{n -k-1}인 t-분포에서 상위 ^α 의 확률을 주는 값을 의미한다.

 H0:β_j= 0 vs. ^H¹^:βj> 0 일 때, ^{t> t}^α^{(n -k-1)}이면 귀무가설 기각

 H0:β_j= 0 vs. ^H1:β_j< 0 일 때, ^t<-t^α^{(n -k-1)}이면 귀무가설 기각

 H0:β_j= 0 vs. ^H1:β_j≠0 일 때, |t | > tα/2(n -k-1)이면 귀무가설 기각

한편 ^βj의 100(1-^α)% 신뢰구간은 다음과 같다.

(b- tα/2(n -k-1)× s cjj, b+ tα/2(n -k-1)×s cjj)

3.2 다중회귀식의 적합성 1. 결정계수와 수정결정계수

다중회귀모형에서 총제곱합을 분해하여 보면

∑_i_{= 1}ⁿ ^(yi-y)²= ∑_i_{= 1}ⁿ ^(yi- yˆ_i)²+ ∑_i_{= 1}ⁿ ⁽ ^yˆi-y)²

( SST = SSE + SSR )

이 된다. 여기서 ^SST는 총제곱합을 의미하며, ^SSE는 오차제곱합, ^SSR은 회귀제곱합이 다. 이러한 제곱합의 분할은 다음과 같은 분산분석표로 요약된다.

분산분석표

(6)

제곱합 자유도 평균제곱합 F

회 귀 SSR k MSR=SSR / k

F=MSR / MSE 오 차 SSE n-k-1 MSE=SSE/(n-k-1)

계 SST=SSR+SSE n-1

단순회귀모형에서와 마찬가지로 총제곱합 중에서 회귀제곱합이 차지하는 비율인 결정계수(coefficient of determination)를 이용하여 회귀식의 적합도를 측정할 수 있을 것이다. 즉,

R²= SSRSST = 1-SSE SST

을 구하여 이 값이 1에 가까울수록 회귀식이 데이터를 잘 설명한다고 할 수 있다.

그런데 결정계수는 단순히 설명변수의 수만 늘어나면 추가된 설명변수가 전체변동을 설명하는데 많은 영향을 주지 않아도 증가하는 경향이 있다. 따라서 이를 수정한 방 법이 수정결정계수(adjusted coefficient of determination)인데, 수정결정계수는

R²_adj= 1-

[

^(1-^R²^{) n -1}n -k-1

]

로 정의된다. 수정결정계수를 이용하면 설명변수의 수가 다를 때 두 회귀모형의 적 합성을 비교할 수 있게 된다.

2. 회귀직선의 유의성검정

단순회귀에서는 설명변수가 하나이므로 ^β에 대한 검정이 곧 회귀직선의 유의성 검 정이 된다. 다중회귀에서는 개별적인 회귀계수에 대한 검정 외에 전체적으로 설명변 수 ^x1,⋯,xk가 반응변수 ^y를 설명하는 모형이 통계적으로 유의한지 살펴보게 된다. 이 를 위해 다음과 같은 가설을 생각한다.

H0 : β₁= ⋯ = β_k=0 vs. ^H1 : β_j들이 모두 0은 아니다.

귀무가설 하에서 검정통계량

F= MSRMSE

는 자유도가 ^{(k,n -k-1)}인 F-분포를 따르게 된다. 따라서 유의수준 ^α에서

(7)

F≥Fα(k,n -k-1)

이면 귀무가설을 기각하게 된다.

3.3 엑셀을 이용한 다중회귀분석

 『도구』메뉴에서 「데이터분석」을 선택하여 분석도구 중 “회귀분석”을 선택하 고 <확인>을 누른다.

3.4 가변수의 사용

지금까지 설명변수가 모두 연속형 변수인 경우에 대해서 설명하였다. 그런데 실제 로는 성별이나 흡연여부 등의 질적인 변수를 회귀모형에 포함시켜야 하는 경우가 발 생한다. 회귀모형에 질적변수를 포함하기 위해서는 이를 수량화해야 하는데 가변수 (dummy variable)를 이용한다. 가변수란 변수에 양적인 의미는 없는 수치(0 또는

1)을 대치하여 범주를 구분하도록 만든 변수이다.

4. 회귀진단(regression diagnostics) 4.1 잔차분석

1. 잔차

단순회귀모형, 또는 다중회귀모형에서는 선형성 가정 외에 오차항

^

에 대한 가정을 했었는데 이를 정리하면 다음과 같다.

① ^^의 평균이 0이다.

② ^^의 분산은 모두 ^σ²로 같다(등분산성 가정).

③ ^^들은 서로 독립이다(독립성 가정).

④ ^^는 정규분포를 따른다(정규성 가정).

이러한 가정이 만족되고 있는지 점검하기 위해서는 오차의 추정량인 잔차(residual)

(8)



_를 이용할 수 있다. 잔차는 개별 관측치에서 추정치를 뺀 값



_

 

_

  

_

를 말한다. 회귀 모형이 잘 적합되었다면 잔차도 오차항

^

와 유사한 성격을 갖고 있 을 것이다. 따라서 잔차가 오차항의 성격을 가지고 있는가를 점검해 봄으로써 모형 이 잘 적합 되었는지 알아볼 수 있다.

잔차의 성질을 보완하기 위한 변형으로 표준화 잔차(standardized residual)와 스튜던트화 잔차(studentized residual)가 있다. 표준화 잔차는 반응변수의 척도에 따른 영향을 받지 않도록 잔차를 표준화한 것으로, 잔차를 그의 표준편차로 나눈 값 이다. 스튜던트화 잔차(studentized residual)는 개별 잔차의 분산이 다르게 되는 점 을 보정한 것으로

t_i= ei

s (1 -h_ii)

로 구한다. 여기서 ^s는 오차항의 분산추정치(=MSE)의 제곱근이며, ^hii는 행렬

H= X(X'X)^{- 1}X'의 ⁱ번째 대각원소이다. 단순회귀분석의 경우에는

hii= 1/n + [ ( xi-x)²/ ∑_i_{= 1}ⁿ (xi-x)²] 이 된다.

2. 잔차그림

먼저 수평축을 예측값(또는 설명변수 값)으로 하고, 수직축은 잔차나 표준화 잔차 로 하여 산점도를 그린 것을 잔차 그림(residual plot)이라고 한다. 회귀분석의 가정 에 부합되는 잔차 그림은 수평축의 0을 중심으로 수평한 형태로 일정한 추세나 경향 이 없이 흩어진 모습을 하고 있어야 한다.

혹은 반응변수의 예측값이 증가함에 따라 잔차의 흩어진 폭도 넓어지는 경향을 보 인다. 이는 예측값이 증가함에 따라 오차의 퍼진 정도가 증가함을 의미하므로 오차 항의 등분산성에 대한 가정을 위배하는 경우이다. 이런 데이터는 분산안정화변환 (variance stabilizing transformation)을 한 뒤 분석하여야 한다. 예컨대 반응변수의 표준편차가 평균반응에 비례하는 경우에 로그변환을 사용할 수 있다.

그리고 반응변수의 값이 증가함에 따라 잔차가 음의 값에서 양의 값으로, 다시 음의

(9)

값으로 변화하는 양상을 보이고 있다. 이러한 데이터는 선형성을 만족하지 못하는 것으로, 선형회귀직선보다는 2차식을 적합해야 한다.

마지막으로 수평축을 예측값이 아니고 관측된 순서로 하여 그린 것이다. 관측순서에 따른 잔차의 변화가 이 그림에서와 같이 일정한 양상을 보이고 있으면, 오차가 서로 독립적이지 않고 일정한 규칙을 갖고 있음을 의미한다.

4.2 오차의 독립성 검정

오차항의 독립성을 평가하는 한 측도로 더빈-왓슨(Durbin-Watson) 통계량이 있 다. 더빈-왓슨 통계량은 잔차들의 상관계수를 측정하게 되는데,

DW= ∑_iⁿ_{= 2}(e_i-e_i- 1)²

∑ⁿ

i= 1e²i

로 정의된다. 더빈-왓슨 통계량이 2에 가까우면 인접 오차항들 사이에 상관관계가 없는 것을 의미하며, 4에 가까우면 음의 상관관계가 있고 0에 가까우면 양의 상관관

계가 있는 것으로 평가한다.

이처럼 각 관측치에 대해서 회귀분석결과에 어떤 영향을 주는지 또는 얼마만큼의 역 할을 하는지 알아보는 과정을 영향력(influence) 평가라고 한다.

잔차 그림과 산점도를 통해서 영향력을 평가해볼 수 있다. 다음의 산점도를 살 펴보자. 그림에서 실선으로 표시된 것은 모든 자료를 포함하여 구한 회귀선을 나타 내며, 점선은 우측상단에 있는 점을 제외했을 때 적합된 회귀선이다. 만약 우측상단 의 점을 포함시키면 이 값 하나로 인해 회귀직선을 위쪽으로 끌어올리는 역할을 하 게 된다. 따라서 이렇게 구해진 회귀선은 전체 자료의 경향을 왜곡하고 오차제곱합 을 크게 하는 경향이 있다. 이러한 점들을 특이값(outlier)이라고 한다.

특이값은 자료를 입력하거나 계산 시에 잘못하여 생길 수도 있지만, 연구 분야에 서 특정한 정보를 줄 수 있다. 따라서 특이값이 발생하는 이유가 계산이나 입력의 오류나 실험의 오류에 의한 것이 아니라면, 특이값을 파악하는 것이 전체 데이터에 대한 통계분석측면 뿐만 아니라 연구 분야에 중요한 정보를 줄 수도 있다. 따라서 특이값을 빼고 분석하여 보는 방법뿐만 아니라 그 특이값이 어떤 이유에서 발생되었

(10)

는지를 살펴보는 것도 필요하다.

4.3 다중공선성

다중회귀분석의 적용에 있어서 가장 중요한 문제 중의 하나는 설명변수간의 다중 공선성(multicollinearity)이 존재할 수 있다는 데 있다. 다중공선성은 설명변수들이 서로 높은 상관관계를 가지고 있을 때에 발생하는데, 설명변수들 사이에 선형종속관 계가 있어서 한 설명변수가 다른 설명변수들의 선형결합으로 표현되는 것이다. 즉, 설명변수

^



⋯

_가 있을 때 이들 사이에



_

 

_



_

⋯ 

_



_

≅ 

인 관계가 있을 때이다. 다중공선성이 있을 때에는 관련된 설명변수중 적어도 하나 는 추가적인 정보를 주지 못하게 된다. 이 경우에는 어느 설명변수를 포함시키느냐 에 따라 회귀계수의 추정치가 크게 달라지게 된다.

다중공선성이 있는지 알아보기 위한 측도로 분산확대인자(variance inflation factor)가 있다. 설명변수 ^xj에서의 분산확대인자는



_

 

  

_^



로 계산되는데, 여기서 ^R²j는 설명변수 ^xj를 나머지 설명변수로 회귀시켰을 때의 다 중결정계수이다. 예를 들어 3개의 설명변수 ^x1,x2,x3가 있을 때 ^R²1은 ^x1을 반응변수,

x2와 ^x3를 설명변수로 해서 다중회귀식을 적합시켰을 때의 결정계수가 된다. 설명변 수들 사이에 상관이 없다면, ^R²j= 0이 되어서^VIFj= 1이 된다. ^VIFj가 클 때 (예컨대 10 이상일 때), ^xj와 다른 설명변수 간에 매우 높은 상관이 있다고 할 수 있다. 이러한 때에는 다중공선성을 가장 크게 하는 설명변수를 제거하는 등의 조처를 취하여야 한 다.

4.4 엑셀을 이용한 회귀진단

엑셀을 이용하여 잔차 분석을 하기 위해서는 데이터 분석 대화상자에서 선택할 때 옵션으로 다음과 같이 잔차에 관한 부분을 선택하여 주면 잔차와 표준화 잔차 및 잔 차 그림 등이 출력된다.

(11)

① 잔차 그림과 표준화 잔차 그림

단순회귀분석 결과로부터 얻은 잔차 그림과 표준화 잔차 그림이다. 잔차 그림은 옵션을 선택함으로써 자동으로 그려진 것이고, 표준화 잔차 그림은 “표준 잔차”

출력결과를 입력 자료로 하여 산점도를 그린 것이다. 표준화 잔차가 모두 ±2사 이에 골고루 퍼져 있으므로 별다른 특이값이 없으며, 등분산성의 가정도 위배되 지 않는 것으로 보인다.

② 더빈-왓슨 통계량

엑셀을 이용하여 오차항의 독립성 검토를 위한 더빈-왓슨 통계량을 계산하자.

③ 정규확률도

옵션에 의해 출력된 정규확률도는 다음과 같다. 직선의 경향이 있음을 알 수 있 으며 따라서 반응변수(또는 오차항)에 대한 정규성의 가정을 만족한다고 하겠다.