다중 회귀분석(Multiple Regression) -

(1)

다중 회귀분석 (Multiple Regression)

- 보충 강의자료 -

지리통계

최재헌 교수

(2)

Introduction

• 다중회귀분석(multiple regression analysis)은 단순회귀분석의 확장으로 독립변수가 두개 이상인 회귀모형에 대한 분석

• 다중 회귀 모형의 변형 예(비선형 모델)

n i

X X

X

Y _i = b ₀ + b ₁ ₁ _i + b ₂ ₂ _i + K + b _k _ki + e _i , = 1 , 2 ,...,

Y _i = b ₀ + b ₁ X ₁ _i + b ₂ X ₁ ² _i + e _i

Y _i = b ₀ + b ₁ X ₁ _i + b ₂ X ₂ _i + b ₃ X X ₁ _i ₂ _i + e _i

) , 0 (

~

s

²

e

_i

N

(3)

1. Multiple Regression Model

i k i

2 i 1 i

i 0

X X ... X

Y =

b

+

b

+

b

+ +

b e

X ₁ , …, X _k are the independent variables.

* b ₁ is the average change in Y for each unit change in X holding

other X’s constant. It is called a partial regression coefficient, a net

regression coefficient, or just a regression coefficient.

(4)

1. Multiple Regression Model

• 회귀식의 적합도

– 결정계수 (coefficient of determination)

• 전체 제곱합 중 모형이 설명하는 제곱합의 비율로 해석

• 0과 1사이의 값을 갖으며 1에 가까울수록 모형의 적합도가 높음

• 독립변수가 추가됨에 따라 증가하는 단점이 있음

– 수정결정계수 (adjusted coefficient of determination)

• 독립변수의 추가에 의해 증가되는 R²의 결점 보완

SST

SSE SST

R

² =

SSR

=1-

) 1

1 )(

( 1 ) 1

1 /(

) 1

1 /(

²

2

R

k n

n n

SST k n

R

_adj

SSE -

- - - - - =

- - -

=

(5)

F-test for Model Significance

• 회귀성 검정

– 가설:

– 독립변수의 모든 회귀계수가 0일 때 회귀성이 없음을 의미 – 검정통계량: F 값 이용

• H₀이 옳으면 F값이 1에 가까운 값을 갖음

• 유의수준 a에서 F₀> F(a; k, n-k-1) (또는 F₀에 대응되는 P값이 산출 되어 있을 때, P값 < a 이면) 이면 가설 H₀를 기각.

H

₁

: 모든 b

_i

(i=1,2, …,k)가 0은 아니다.

0 :

₁ ₂

0

= = =

_k

=

H b b L b

) ]

[ , 0 (

,

₁ ₂ ²

0

= if b = b = = b = E MSR = s

MSE

F MSR L

_k

) 1 , ( 0

0

, = ~ F

_k _n_-_k_-

MSE F MSR

true

is

H

if

(6)

• 회귀성 검정 (2/2)

• [정리 9.1]

– 회귀계수벡타

b

의 추정량은 다음과 같은 기대치와 분산-공분 산행렬을 갖는 다변량 정규분포를 따른다.

•

1 2

) (

ˆ) (

) (

ˆ] [ ˆ] [

- -

=

X X MSE s

X X Var

E

T T

b

s b

b b

F-test for Model Significance

(7)

• 개별회귀계수에 대한 검정 (T-검정) –

b _j

에 대한 100(1-a) % 신뢰구간:

– 가설:

– 검정통계량:

– |T

_j

| > t

(a/2; n-k-1)

이면

H ₀

을 기각

0 :

1 0

¹

=

j j

H H

b b

) 1

; 2 /

) (

( ˆ

ˆ _j ±

se b

_j ×

t

_a _n-_k-

b

ˆ ) (

ˆ

j j

j

se

T b

= b

T-test for Individual coefficients

(8)

9.3 모형에 대한 추론 ^(5/5)

• 일부계수에 대한 부분검정 (F-검정)

– 가설:

• 완전모형(full model):

• 축소모형(reduced model):

– 검정통계량:

– H

₀

이 옳을 때, F > F

(a; k-r, n-k-1)

이면 유의수준 a에서 귀무가설 H

₀

는 기각 되고 추가된 변수들이 의미가 있다고 판단되므로 완전모형을 채택한다.

H

₁

: b

_i

(i=r+1,r+2, …,k) 모두가 0은 아니다.

0 :

₁ ₂

0 _r₊

=

_r₊

= =

_k

=

H b b L b

i ki k i

r r ri r i

i

X X X X

Y = b

₀

+ b

₁ ₁

+ L + b + b

₊₁ ₊₁_,

L + b + e

i ri r i

i

X X

Y = b

₀

+ b

₁ ₁

+ L + b + e

) 1 (

) (

) ( )

(

) 1 (

) (

) ( )

(

- -

= -

- - -

=

k n

F SSE

r k

R SSR F

SSR

k n

F SSE

r k

F SSE R

SSE

F

(9)

Variable Selection

• 선택기준 (척도)

– 결정계수 (R2)

• 변수를 증가시키면서 R

²

의 증가가 둔화되는 독립변수까지를 선택

– 수정결정계수 (adjusted R2)

• 수정결정계수가 최대가 되는 독립변수의 조합을 선택

– Mean Square Error (MSE)

• MSE가 최소가 되는 독립변수의 조합을 선택

– C_p Statistic

• p항의 회귀모형이 완전모형에 얼마나 가까운가를 나타내는 척도

• 정의:

• p항 회귀모형에서 C

_p

가 p에 가까운 값을 갖으면서 적은 변수를 갖는 모형 p

MSE n

C

_p

= SSE

^p

- + 2

(10)

• 선택 방법

– 모든 가능한 조합의 회귀분석 (All possible regression)

• 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석하여 가장 적합 한 회귀모형을 선택

[표 9-6] 각 변수조합에 대한 선택척도 산출 Number in

Model R-square Adjusted

R-square Cp MSE Variables in

Model

1 0.7960 0.7932 52.57 3.9142 C

1 0.4921 0.4852 236.71 9.7468 MN

1 0.0893 0.0768 480.79 17.4782 CU

1 0.0430 0.0299 508.83 18.3661 NI

2 0.8776 0.8742 5.14 2.3810 C, MN

2 0.7988 0.7932 52.91 3.9151 C, NI

2 0.7970 0.7914 53.95 3.9486 C, CU

2 0.5404 0.5276 209.46 8.9428 MN, CU

2 0.5348 0.5219 212.83 9.0512 NI, MN

2 0.0927 0.0675 480.75 17.6553 NI, CU

3 0.8844 0.8795 3.01 2.2800 C, NI, MN

3 0.8797 0.8746 5.88 2.3735 C, MN, CU

3 0.7988 0.7903 54.88 3.9695 C, NI, CU

3 0.5516 0.5326 204.67 8.8477 NI, MN, CU

Variable Selection

(11)

• 선택방법

– 단계적 변수선택 (Stepwise Regression)

• 전진선택법 (forward selection)

– 독립변수 후보들 중 종속변수에 가장 큰 영향을 주는 변수부터 선택하여 모형 에 포함시키면서 더 이상 추가할 의미있는 변수가 없을 때 중단

• 후진제거법 (backward elimination)

– 독립변수 후보 모두를 포함시킨 모형에서 출발하여 가장 적은 영향을 주는 변 수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택

• 단계별방법 (stepwise method)

– 전진선택법에 의하여 변수를 추가하면서 새롭게 추가된 변수에 기인하여 기 존 변수가 그 중요도가 약화되면 해당변수를 제거하는 등 매 단계별로 추가 또는 제거되는 변수의 여부를 검토하여 더 이상 없을 때 중단

Variable Selection

(12)

(13)

Prediction for response value

• 평균반응치의 추정

–

– 100(1-a) % 신뢰구간:

• 미래반응치의 추정

–

– 100(1-a) % 신뢰구간:

T k

T T T

T

x x

x X

where

X X

X X X

Var X

Y Var

X Y

) , , , , 1 (

) (

ˆ ] [ ˆ ]

[ ˆ ˆ

0 20

10 0

0 1 0

2 0

0 0

= K

=

s -

b b

T k

T T T

T

x x

x X

where

X X

X X X

X X X Y

Y Var

) , , , , 1 (

) )

( 1

( )

( ˆ ]

[

0 20

10 0

0 1 0

2 0

1 0

2 2

0 0

= K

+

= +

=

-

s s ^- s ^-

0 1 0

) 1

; 2 / (

0

ˆ t MSE X ( X X ) X

X

^Tb

±

_a _n_-_k_-

×

^T ^T ^-

] )

( 1

ˆ [

0 1 0

) 1

; 2 / (

0

t MSE X X X X

X

^Tb

±

_a _n_-_k_-

× +

^T ^T ^-

(14)

Multicollinearity

• 다중공선성(Multicollinearity)

:

– 독립변수들 사이에 상관관계가 있는 현상

• 즉, 어떤 독립변수가 다른 독립변수들의 선형결합의 관계를 갖는 경우

- 다중공선성이 존재하면 회귀계수의 해석이 불가능

- r

₁₂

가 X

₁

, X

₂

의 표본상관계수라고 할 때, 회귀계수의 추정량

b ₁

의 분산은 다음과 같고, r

₁₂

가 1에 가까우면

b ₁

^{의 분산은 매우 커} 지게 된다.

e b

b

b + + +

= ₀ ₁ X ₁ ₂ X ₂ Y

å -

÷÷ ø çç ö

è æ

= - ₂

12 2 2

1 ( )

1 1

] 1 [ ˆ

X r X

Var b s

(15)

•다중공선성의 척도

–분산팽창계수 (VIF: Variance Inflation Factor)

VIF_j는 독립변수 사이에서 발생하는 다중 공선성으로 인한 분산의 증가를 의미 일반적으로 k개의 VIF_j 중 가장 큰 값이 5~10을 넘으면 다중공선성이 있다고 할 수 있음

VIF R

j

1

2

1 = - j = 1, 2, ..., k

Multicollinearity

• 변수선택 과정에서 상관계수가 높은 두 변수 중에는 하나만을 선택

• 좀 더 많은 데이타를 수집하여 재분석

• 능형회귀(ridge regression)나 주성분회귀(principal components regression)를 사용

(16)

Auto correlation

• 자기상관 (autocorrelation)

– 오차항간에 상관관계가 존재 – 문제점

• 최소자승법에 의한 회귀계수 추정량을 BLUE estimator라 할 수 없음

• 회귀계수에 대한 검정을 신뢰할 수 없음

(17)

• 가정 (모델)

–

– n

_i

는 서로 독립인 새로운 오차항

– r = 0 일 때, 오차항이 서로 독립인 모형이 됨

• 가설

–

• Durbin-Watson

– Durbin-Watson 통계량:

–

i i

i

i ki k i

i

X X

Y

n re

e

e b

b b

+

=

+ +

=

-1

1 1

0

K

0 :

1 0

¹

= r

r

H H

å å -

=

= -

n

i i

n

i i i

e e e DW

1 2 2

2 1

) (

) 1

(

2 - r ⁾

» DW

Auto correlation

(18)

• 가설검정에 대한 판정

Auto correlation

다중 회귀분석(Multiple Regression) -