• 검색 결과가 없습니다.

다중 회귀분석(Multiple Regression) -

N/A
N/A
Protected

Academic year: 2022

Share "다중 회귀분석(Multiple Regression) -"

Copied!
18
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

다중 회귀분석 (Multiple Regression)

- 보충 강의자료 -

지리통계

최재헌 교수

(2)

Introduction

• 다중회귀분석(multiple regression analysis)은 단순회귀분석의 확장으로 독립변수가 두개 이상인 회귀모형에 대한 분석

• 다중 회귀 모형의 변형 예(비선형 모델)

n i

X X

X

Y i = b 0 + b 1 1 i + b 2 2 i + K + b k ki + e i , = 1 , 2 ,...,

Y i = b 0 + b 1 X 1 i + b 2 X 1 2 i + e i

Y i = b 0 + b 1 X 1 i + b 2 X 2 i + b 3 X X 1 i 2 i + e i

) , 0 (

~

s

2

e

i

N

(3)

1. Multiple Regression Model

i k i

2 i 1 i

i 0

X X ... X

Y =

b

+

b

+

b

+ +

b e

X 1 , …, X k are the independent variables.

* b 1 is the average change in Y for each unit change in X holding

other X’s constant. It is called a partial regression coefficient, a net

regression coefficient, or just a regression coefficient.

(4)

1. Multiple Regression Model

• 회귀식의 적합도

– 결정계수 (coefficient of determination)

• 전체 제곱합 중 모형이 설명하는 제곱합의 비율로 해석

• 0과 1사이의 값을 갖으며 1에 가까울수록 모형의 적합도가 높음

• 독립변수가 추가됨에 따라 증가하는 단점이 있음

– 수정결정계수 (adjusted coefficient of determination)

• 독립변수의 추가에 의해 증가되는 R2 의 결점 보완

SST

SSE SST

R

2 =

SSR

=1-

) 1

1 )(

( 1 ) 1

1 /(

) 1

1 /(

2

2

R

k n

n n

SST k n

R

adj

SSE -

- - - - - =

- - -

=

(5)

F-test for Model Significance

• 회귀성 검정

– 가설:

– 독립변수의 모든 회귀계수가 0일 때 회귀성이 없음을 의미 – 검정통계량: F 값 이용

• H0이 옳으면 F값이 1에 가까운 값을 갖음

• 유의수준 a에서 F0 > F(a; k, n-k-1) (또는 F0에 대응되는 P값이 산출 되어 있을 때, P값 < a 이면) 이면 가설 H0를 기각.

H

1

: 모든 b

i

(i=1,2, …,k)가 0은 아니다.

0 :

1 2

0

= = =

k

=

H b b L b

) ]

[ , 0 (

,

1 2 2

0

= if b = b = = b = E MSR = s

MSE

F MSR L

k

) 1 , ( 0

0

, = ~ F

k n-k-

MSE F MSR

true

is

H

if

(6)

• 회귀성 검정 (2/2)

• [정리 9.1]

– 회귀계수벡타

b

의 추정량은 다음과 같은 기대치와 분산-공분 산행렬을 갖는 다변량 정규분포를 따른다.

1 2

1 2

) (

ˆ) (

) (

ˆ] [ ˆ] [

- -

=

=

=

X X MSE s

X X Var

E

T T

b

s b

b b

F-test for Model Significance

(7)

• 개별회귀계수에 대한 검정 (T-검정) –

b j

에 대한 100(1-a) % 신뢰구간:

– 가설:

– 검정통계량:

– |T

j

| > t

(a/2; n-k-1)

이면

H 0

을 기각

0 :

0 :

1 0

¹

=

j j

H H

b b

) 1

; 2 /

) (

( ˆ

ˆ j ±

se b

j ×

t

a n-k-

b

ˆ ) (

ˆ

j j

j

se

T b

= b

T-test for Individual coefficients

(8)

9.3 모형에 대한 추론 (5/5)

• 일부계수에 대한 부분검정 (F-검정)

– 가설:

• 완전모형(full model):

• 축소모형(reduced model):

– 검정통계량:

– H

0

이 옳을 때, F > F

(a; k-r, n-k-1)

이면 유의수준 a에서 귀무가설 H

0

는 기각 되고 추가된 변수들이 의미가 있다고 판단되므로 완전모형을 채택한다.

H

1

: b

i

(i=r+1,r+2, …,k) 모두가 0은 아니다.

0

:

1 2

0 r+

=

r+

= =

k

=

H b b L b

i ki k i

r r ri r i

i

X X X X

Y = b

0

+ b

1 1

+ L + b + b

+1 +1,

L + b + e

i ri r i

i

X X

Y = b

0

+ b

1 1

+ L + b + e

) 1 (

) (

) (

) ( )

(

) 1 (

) (

) (

) ( )

(

- -

- -

= -

- - -

=

k n

F SSE

r k

R SSR F

SSR

k n

F SSE

r k

F SSE R

SSE

F

(9)

Variable Selection

• 선택기준 (척도)

– 결정계수 (R2)

• 변수를 증가시키면서 R

2

의 증가가 둔화되는 독립변수까지를 선택

– 수정결정계수 (adjusted R2)

• 수정결정계수가 최대가 되는 독립변수의 조합을 선택

– Mean Square Error (MSE)

• MSE가 최소가 되는 독립변수의 조합을 선택

– Cp Statistic

• p항의 회귀모형이 완전모형에 얼마나 가까운가를 나타내는 척도

• 정의:

• p항 회귀모형에서 C

p

가 p에 가까운 값을 갖으면서 적은 변수를 갖는 모형 p

MSE n

C

p

= SSE

p

- + 2

(10)

• 선택 방법

– 모든 가능한 조합의 회귀분석 (All possible regression)

• 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석하여 가장 적합 한 회귀모형을 선택

[표 9-6] 각 변수조합에 대한 선택척도 산출 Number in

Model R-square Adjusted

R-square Cp MSE Variables in

Model

1 0.7960 0.7932 52.57 3.9142 C

1 0.4921 0.4852 236.71 9.7468 MN

1 0.0893 0.0768 480.79 17.4782 CU

1 0.0430 0.0299 508.83 18.3661 NI

2 0.8776 0.8742 5.14 2.3810 C, MN

2 0.7988 0.7932 52.91 3.9151 C, NI

2 0.7970 0.7914 53.95 3.9486 C, CU

2 0.5404 0.5276 209.46 8.9428 MN, CU

2 0.5348 0.5219 212.83 9.0512 NI, MN

2 0.0927 0.0675 480.75 17.6553 NI, CU

3 0.8844 0.8795 3.01 2.2800 C, NI, MN

3 0.8797 0.8746 5.88 2.3735 C, MN, CU

3 0.7988 0.7903 54.88 3.9695 C, NI, CU

3 0.5516 0.5326 204.67 8.8477 NI, MN, CU

Variable Selection

(11)

• 선택방법

– 단계적 변수선택 (Stepwise Regression)

• 전진선택법 (forward selection)

– 독립변수 후보들 중 종속변수에 가장 큰 영향을 주는 변수부터 선택하여 모형 에 포함시키면서 더 이상 추가할 의미있는 변수가 없을 때 중단

• 후진제거법 (backward elimination)

– 독립변수 후보 모두를 포함시킨 모형에서 출발하여 가장 적은 영향을 주는 변 수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택

• 단계별방법 (stepwise method)

– 전진선택법에 의하여 변수를 추가하면서 새롭게 추가된 변수에 기인하여 기 존 변수가 그 중요도가 약화되면 해당변수를 제거하는 등 매 단계별로 추가 또는 제거되는 변수의 여부를 검토하여 더 이상 없을 때 중단

Variable Selection

(12)
(13)

Prediction for response value

• 평균반응치의 추정

– 100(1-a) % 신뢰구간:

• 미래반응치의 추정

– 100(1-a) % 신뢰구간:

T k

T T T

T

x x

x X

where

X X

X X X

Var X

Y Var

X Y

) , , , , 1 (

) (

ˆ ] [ ˆ ]

[ ˆ ˆ

0 20

10 0

0 1 0

2 0

0 0

0 0

= K

=

=

=

s -

b b

T k

T T T

T

x x

x X

where

X X

X X X

X X X Y

Y Var

) , , , , 1 (

) )

( 1

( )

( ˆ ]

[

0 20

10 0

0 1 0

2 0

1 0

2 2

0 0

= K

+

= +

=

-

s s - s -

0 1 0

) 1

; 2 / (

0

ˆ t MSE X ( X X ) X

X

Tb

±

a n-k-

×

T T -

] )

( 1

ˆ [

0 1 0

) 1

; 2 / (

0

t MSE X X X X

X

Tb

±

a n-k-

× +

T T -

(14)

Multicollinearity

• 다중공선성(Multicollinearity)

:

– 독립변수들 사이에 상관관계가 있는 현상

• 즉, 어떤 독립변수가 다른 독립변수들의 선형결합의 관계를 갖는 경우

- 다중공선성이 존재하면 회귀계수의 해석이 불가능

- r

12

가 X

1

, X

2

의 표본상관계수라고 할 때, 회귀계수의 추정량

b 1

의 분산은 다음과 같고, r

12

가 1에 가까우면

b 1

의 분산은 매우 커 지게 된다.

e b

b

b + + +

= 0 1 X 1 2 X 2 Y

å -

÷÷ ø çç ö

è æ

= - 2

12 2 2

1 ( )

1 1

] 1 [ ˆ

X r X

Var b s

(15)

•다중공선성의 척도

–분산팽창계수 (VIF: Variance Inflation Factor)

VIFj는 독립변수 사이에서 발생하는 다중 공선성으로 인한 분산의 증가를 의미 일반적으로 k개의 VIFj 중 가장 큰 값이 5~10을 넘으면 다중공선성이 있다고 할 수 있음

VIF R

j

j

1

2

1

= - j = 1, 2, ..., k

Multicollinearity

• 변수선택 과정에서 상관계수가 높은 두 변수 중에는 하나만을 선택

• 좀 더 많은 데이타를 수집하여 재분석

• 능형회귀(ridge regression)나 주성분회귀(principal components regression)를 사용

(16)

Auto correlation

• 자기상관 (autocorrelation)

– 오차항간에 상관관계가 존재 – 문제점

• 최소자승법에 의한 회귀계수 추정량을 BLUE estimator라 할 수 없음

• 회귀계수에 대한 검정을 신뢰할 수 없음

(17)

• 가정 (모델)

– n

i

는 서로 독립인 새로운 오차항

– r = 0 일 때, 오차항이 서로 독립인 모형이 됨

• 가설

• Durbin-Watson

– Durbin-Watson 통계량:

i i

i

i ki k i

i

X X

Y

n re

e

e b

b b

+

=

+ +

+ +

=

-1

1 1

0

K

0 :

0 :

1 0

¹

= r

r

H H

å å -

=

=

= -

n

i i

n

i i i

e e e DW

1 2 2

2 1

) (

) 1

(

2 - r )

» DW

Auto correlation

(18)

• 가설검정에 대한 판정

Auto correlation

참조

관련 문서

A simple approximation of the sampling distribution of least absolute residuals regression estimates, Communications in Statistics - Simulation and Computation,

This study is determined to use with the hydraulic engineering field of relationships for Manning roughness coefficient by the regression analyzing the field measurements

Correlations between the thickness of epicardial adipose tissue (EAT) and various parameterssimple linear regression analysis and multiple regression

A multiple regression analysis was performed with patients admitted to the window or door side to determine whether the window affected their hospital stay.. In addition,

electrode area, diffusion coefficient, and concentration, are simultaneously obtained by nonlinear regression analysis of a single chronoamperometric faradaic current curve

Key Words : Liquid Column Vibration Absorber(액체기둥형 감쇠장치), Shaking Table Test(진동대 실험), Natural Frequency(고유진동수),

The histogram features based classification uses a regression based histogram distance measure (Pradeep and Nagabhushan 2006, Sanjay.. Nagappa Bhajantri,

We illustrate the performance of the proposed method of variable selection in the kernel Cox regression by comparing its performance with adaptive LASSO (Zhang and Lu, 2007)