다중 회귀분석 (Multiple Regression)
- 보충 강의자료 -
지리통계
최재헌 교수
Introduction
• 다중회귀분석(multiple regression analysis)은 단순회귀분석의 확장으로 독립변수가 두개 이상인 회귀모형에 대한 분석
• 다중 회귀 모형의 변형 예(비선형 모델)
n i
X X
X
Y i = b 0 + b 1 1 i + b 2 2 i + K + b k ki + e i , = 1 , 2 ,...,
Y i = b 0 + b 1 X 1 i + b 2 X 1 2 i + e i
Y i = b 0 + b 1 X 1 i + b 2 X 2 i + b 3 X X 1 i 2 i + e i
) , 0 (
~
s
2e
iN
1. Multiple Regression Model
i k i
2 i 1 i
i 0
X X ... XY =
b
+b
+b
+ +b e
X 1 , …, X k are the independent variables.
* b 1 is the average change in Y for each unit change in X holding
other X’s constant. It is called a partial regression coefficient, a net
regression coefficient, or just a regression coefficient.
1. Multiple Regression Model
• 회귀식의 적합도
– 결정계수 (coefficient of determination)
• 전체 제곱합 중 모형이 설명하는 제곱합의 비율로 해석
• 0과 1사이의 값을 갖으며 1에 가까울수록 모형의 적합도가 높음
• 독립변수가 추가됨에 따라 증가하는 단점이 있음
– 수정결정계수 (adjusted coefficient of determination)
• 독립변수의 추가에 의해 증가되는 R2 의 결점 보완
SST
SSE SST
R
2 =SSR
=1-) 1
1 )(
( 1 ) 1
1 /(
) 1
1 /(
22
R
k n
n n
SST k n
R
adjSSE -
- - - - - =
- - -
=
F-test for Model Significance
• 회귀성 검정
– 가설:
– 독립변수의 모든 회귀계수가 0일 때 회귀성이 없음을 의미 – 검정통계량: F 값 이용
• H0이 옳으면 F값이 1에 가까운 값을 갖음
• 유의수준 a에서 F0 > F(a; k, n-k-1) (또는 F0에 대응되는 P값이 산출 되어 있을 때, P값 < a 이면) 이면 가설 H0를 기각.
H
1: 모든 b
i(i=1,2, …,k)가 0은 아니다.
0 :
1 20
= = =
k=
H b b L b
) ]
[ , 0 (
,
1 2 20
= if b = b = = b = E MSR = s
MSE
F MSR L
k) 1 , ( 0
0
, = ~ F
k n-k-MSE F MSR
true
is
H
if
• 회귀성 검정 (2/2)
• [정리 9.1]
– 회귀계수벡타
b
의 추정량은 다음과 같은 기대치와 분산-공분 산행렬을 갖는 다변량 정규분포를 따른다.•
1 2
1 2
) (
ˆ) (
) (
ˆ] [ ˆ] [
- -
=
=
=
X X MSE s
X X Var
E
T T
b
s b
b b
F-test for Model Significance
• 개별회귀계수에 대한 검정 (T-검정) –
b j
에 대한 100(1-a) % 신뢰구간:– 가설:
– 검정통계량:
– |T
j
| > t(a/2; n-k-1)
이면H 0
을 기각0 :
0 :
1 0
¹
=
j j
H H
b b
) 1
; 2 /
) (
( ˆ
ˆ j ±
se b
j ×t
a n-k-b
ˆ ) (
ˆ
j j
j
se
T b
= b
T-test for Individual coefficients
9.3 모형에 대한 추론 (5/5)
• 일부계수에 대한 부분검정 (F-검정)
– 가설:
• 완전모형(full model):
• 축소모형(reduced model):
– 검정통계량:
– H
0
이 옳을 때, F > F(a; k-r, n-k-1)
이면 유의수준 a에서 귀무가설 H0
는 기각 되고 추가된 변수들이 의미가 있다고 판단되므로 완전모형을 채택한다.H
1: b
i(i=r+1,r+2, …,k) 모두가 0은 아니다.
0
:
1 20 r+
=
r+= =
k=
H b b L b
i ki k i
r r ri r i
i
X X X X
Y = b
0+ b
1 1+ L + b + b
+1 +1,L + b + e
i ri r i
i
X X
Y = b
0+ b
1 1+ L + b + e
) 1 (
) (
) (
) ( )
(
) 1 (
) (
) (
) ( )
(
- -
- -
= -
- - -
=
k n
F SSE
r k
R SSR F
SSR
k n
F SSE
r k
F SSE R
SSE
F
Variable Selection
• 선택기준 (척도)
– 결정계수 (R2)
• 변수를 증가시키면서 R
2의 증가가 둔화되는 독립변수까지를 선택
– 수정결정계수 (adjusted R2)
• 수정결정계수가 최대가 되는 독립변수의 조합을 선택
– Mean Square Error (MSE)
• MSE가 최소가 되는 독립변수의 조합을 선택
– Cp Statistic
• p항의 회귀모형이 완전모형에 얼마나 가까운가를 나타내는 척도
• 정의:
• p항 회귀모형에서 C
p가 p에 가까운 값을 갖으면서 적은 변수를 갖는 모형 p
MSE n
C
p= SSE
p- + 2
• 선택 방법
– 모든 가능한 조합의 회귀분석 (All possible regression)
• 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석하여 가장 적합 한 회귀모형을 선택
[표 9-6] 각 변수조합에 대한 선택척도 산출 Number in
Model R-square Adjusted
R-square Cp MSE Variables in
Model
1 0.7960 0.7932 52.57 3.9142 C
1 0.4921 0.4852 236.71 9.7468 MN
1 0.0893 0.0768 480.79 17.4782 CU
1 0.0430 0.0299 508.83 18.3661 NI
2 0.8776 0.8742 5.14 2.3810 C, MN
2 0.7988 0.7932 52.91 3.9151 C, NI
2 0.7970 0.7914 53.95 3.9486 C, CU
2 0.5404 0.5276 209.46 8.9428 MN, CU
2 0.5348 0.5219 212.83 9.0512 NI, MN
2 0.0927 0.0675 480.75 17.6553 NI, CU
3 0.8844 0.8795 3.01 2.2800 C, NI, MN
3 0.8797 0.8746 5.88 2.3735 C, MN, CU
3 0.7988 0.7903 54.88 3.9695 C, NI, CU
3 0.5516 0.5326 204.67 8.8477 NI, MN, CU
Variable Selection
• 선택방법
– 단계적 변수선택 (Stepwise Regression)
• 전진선택법 (forward selection)
– 독립변수 후보들 중 종속변수에 가장 큰 영향을 주는 변수부터 선택하여 모형 에 포함시키면서 더 이상 추가할 의미있는 변수가 없을 때 중단
• 후진제거법 (backward elimination)
– 독립변수 후보 모두를 포함시킨 모형에서 출발하여 가장 적은 영향을 주는 변 수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택
• 단계별방법 (stepwise method)
– 전진선택법에 의하여 변수를 추가하면서 새롭게 추가된 변수에 기인하여 기 존 변수가 그 중요도가 약화되면 해당변수를 제거하는 등 매 단계별로 추가 또는 제거되는 변수의 여부를 검토하여 더 이상 없을 때 중단
Variable Selection
Prediction for response value
• 평균반응치의 추정
–
– 100(1-a) % 신뢰구간:
• 미래반응치의 추정
–
– 100(1-a) % 신뢰구간:
T k
T T T
T
x x
x X
where
X X
X X X
Var X
Y Var
X Y
) , , , , 1 (
) (
ˆ ] [ ˆ ]
[ ˆ ˆ
0 20
10 0
0 1 0
2 0
0 0
0 0
= K
=
=
=
s -
b b
T k
T T T
T
x x
x X
where
X X
X X X
X X X Y
Y Var
) , , , , 1 (
) )
( 1
( )
( ˆ ]
[
0 20
10 0
0 1 0
2 0
1 0
2 2
0 0
= K
+
= +
=
-
s s - s -0 1 0
) 1
; 2 / (
0
ˆ t MSE X ( X X ) X
X
Tb±
a n-k-×
T T -] )
( 1
ˆ [
0 1 0
) 1
; 2 / (
0
t MSE X X X X
X
Tb±
a n-k-× +
T T -Multicollinearity
• 다중공선성(Multicollinearity)
:– 독립변수들 사이에 상관관계가 있는 현상
• 즉, 어떤 독립변수가 다른 독립변수들의 선형결합의 관계를 갖는 경우
- 다중공선성이 존재하면 회귀계수의 해석이 불가능
- r
12
가 X1
, X2
의 표본상관계수라고 할 때, 회귀계수의 추정량b 1
의 분산은 다음과 같고, r12
가 1에 가까우면b 1
의 분산은 매우 커 지게 된다.e b
b
b + + +
= 0 1 X 1 2 X 2 Y
å -
÷÷ ø çç ö
è æ
= - 2
12 2 2
1 ( )
1 1
] 1 [ ˆ
X r X
Var b s
•다중공선성의 척도
–분산팽창계수 (VIF: Variance Inflation Factor)
VIFj는 독립변수 사이에서 발생하는 다중 공선성으로 인한 분산의 증가를 의미 일반적으로 k개의 VIFj 중 가장 큰 값이 5~10을 넘으면 다중공선성이 있다고 할 수 있음
VIF R
j
j
1
21
= - j = 1, 2, ..., k
Multicollinearity
• 변수선택 과정에서 상관계수가 높은 두 변수 중에는 하나만을 선택
• 좀 더 많은 데이타를 수집하여 재분석
• 능형회귀(ridge regression)나 주성분회귀(principal components regression)를 사용
Auto correlation
• 자기상관 (autocorrelation)
– 오차항간에 상관관계가 존재 – 문제점
• 최소자승법에 의한 회귀계수 추정량을 BLUE estimator라 할 수 없음
• 회귀계수에 대한 검정을 신뢰할 수 없음
• 가정 (모델)
–
– n
i
는 서로 독립인 새로운 오차항– r = 0 일 때, 오차항이 서로 독립인 모형이 됨
• 가설
–
• Durbin-Watson
– Durbin-Watson 통계량:
–
i i
i
i ki k i
i
X X
Y
n re
e
e b
b b
+
=
+ +
+ +
=
-1
1 1
0
K
0 :
0 :
1 0
¹
= r
r
H H
å å -
=
=
= -
n
i i
n
i i i
e e e DW
1 2 2
2 1