다중 회귀분석

(1)

다중 회귀분석

지리통계학 제10강

최재헌 교수

(2)

다중 회귀분석의 기본원리

(1)다중 회귀분석의 개념

– 하나의 종속변수와 여러 개의 독립변수(설명 변수)와의 관계를 파악

– 다른 설명변수의 영향력을 통제한 상태에서 특정한 설명변수와 종속변수와 관계 파악 – 최소자승법을 통해 k차원의 공간에서 가장

적합한 회귀평면 추정

– 변수들간의 정규성, 산포도, 상관관계 파악이 전제 (그림 9-1, p.299)

– Y = Xb + e 의 열벡터로 표현

(3)

(4)

(2) 회귀계수의 표준화

– 회귀계수(Beta)는 개개의 설명변수와 종속변수간 의 관계를 표현, 측정단위에 따라 회귀계수가 달 라짐.

– 회귀계수의 크기 비교를 위해 회귀계수를 표준화 시킴

• 원자료를 표준화 점수(z-score)로 변환 시킨후 회귀 분 석을 실행, 베타계수(B)는 모든 설명변수와 종속변수를 표준화 점수로 변환 후에 측정한 계수

• 설명변수의 표준편차(Sx)를 종속변수의 표준편차(Sy)로 나눈 비율을 각각의 회귀계수에 곱하여 측정척도에 따 른 차이를 보정하는 방법

– 설명변수의 표준화한 회귀계수가 크다는 것은 이

설명변수에 의해 종속변수가 더 큰 영향을 받고

있다는 의미

(5)

(3) 편상관계수와 부분상관계수

• 편상관계수(partial correlation coefficient):

– 다른 설명변수들의 영향이 통제된 상태에서 해당 설명변수가 한 단위 증가할 때 종속변수의 변화량을 나타내는 계수,

– 여러 설명변수의 효과를 제어한 경우 종속변수와 특정 설명변수 간에 나타나는 상관계수

– 표준화 회귀계수와 마찬가지로 개개의 설명변수의 독자적인 영 향력을 측정, 즉 각각의 설명변수에 의해 설명되어진 종속변수의 분산 비율

(6)

• 부분상관계수(part correlation)

편상관계수값 > 부분상관계수

(7)

다중 회귀모델의 설정과 모델 검정

(1) 모델의 설정 단계

– 목적: 종속변수에 영향을 미치는 설명변수를 통해 종속변 수의 총 분산을 최대한도로 설명

– 6단계

① 회귀모델의 목적 명시, 가설명시, 변수간 예상 관계

② 연구디자인 구상(표본 크기, 유의수준, 변수와 사례수와의 관계), 변수:사례수 = 1:5, 1:15, 또는 1:20

③ 기술통계, 산포도를 통해 정규성과 선형성 검사, 더미변 수 필요성 등 고려

④ 설명변수 선정(공선성 고려, 전후방 단계선정 방법 등 이 용), OLS를 통한 모수 추정, 잔차에 대한 가정 진단

⑤ 이상치와 영향력있는 사례 진단

⑥ 회귀모델에 대한 해석

(8)

다중 회귀분 석의 실행 단계와 단계 별 과정의 특색

(9)

모델 설정을 위한 변수 선정방법

• 설명력이 높은 적정한 규모의 설명 변수 선정이 과제

– 설명변수의 수가 많을수록 종속변수에 대한 분산 비율은 높아지 나 회귀모델의 규모가 커지고 복잡

– 설명변수의 수가 적을수록 종속변수에 대한 분산비율은 낮아짐

• n 개의 설명변수에서 산출가능한 회귀식은 2

ⁿ

– 1

• 단계 회귀분석(stepwise regression analysis)

① 전방선정법(forward selection)

• 종속변수와 편상관관계가 높은 설명변수부터 추가하여 모델 구축, 정지규 칙에 부합하면 정지

② 후방제거법(backward elimination)

• 모든 변수를 다 사용한 전체모델에서 t값이 작은 변수 순으로 하나씩 제거 하다가 정지규칙에 부합할 경우 정지

③ 단계적 선정법(stepwise selection)

• 전방선정법과 후방제거법을 결합하여 이미 진입한 변수들과 제거한 변수 들을 서로 교환하여 가장 적합한 모델을 선정

(10)

최적화기준(C _p )에 입각한 모델 선정

• 결정계수( R

²

)을 기준으로 최적의 회귀모델 선정, 그러나 설명변수의 수에 따라 결정계수 값이 증가하는 문제점 1. 회귀계수의 개수(p) 차이에 따라 산출된 결정계수의 값

을 조정한 adjusted R

²

값을 이용

2. C

_p

지수 사용, 잔차를 최소화하는 모델로서 모수의 수가 증가할수록 잔차와 n-p가 감소하는 것을 이용하여 산출

–

C

_p값이 모수 p의 값과 일치할수록 잔차가 작아져서 적합성이 높아짐

P: 회귀계수의 수 K: 설명 변수의 수

(11)

회귀모델의 적합도 검정

• 추정치의 표본오차가 작을수록 결정계수가 클수록 적합

1. 추정치의 표준오차

2. 결정계수(coefficient of determination)

3. 분산 분석표를 통한 적합성 검정

4. 추정치에 대한 검정

• 개별 설명변수에 대한 유의성 검정을 위해 개별적인 회귀계수에 대해 t 검 정을 실시.

(12)

(13)

공선성(multicollinearity) 검정

• 다중회귀분석 에서는 설명변 수들 간에 상관 성이 없어야 함.

• 설명변수들 간 에 상관관계가 높게 나타날 경 우 공선성이 높 다고 하며, 높 은 상관관계를 보일 경우 다중 공선성이 존재

• 다중공선성이 높을 경우 편회 귀계수의 추정 값, 표준오차가 부정확하며, 회 귀계수를 왜곡, 통계적 유의성 감소

(14)

공선성의 진단과 처방

• 공선성 존재의 추정 결과

1. 설명변수들 간의 상관계수가 매우 높은 경우

2. 한 설명변수를 모델에 추가하거나 기존의 변수를 제거할 경우 추정된 회귀계수의 크기나 부호가 크게 변동하는 경우

3. 결정계수는 상당히 크지만 회귀계수들 가원데 통계적으로 유 의성이 없는 회귀계수가 산출되는 경우

4. 중요한 영향력을 가질 것이라 예상되는 설명변수가 유의미하 게 나타나지 않을 경우

5. 추정된 회귀계수의 부호가 기존 연구나 이론 토대에서 알려진 부호와 상반되는 경우

(15)

• 공선성 진단방법

1. 설명변수 들간에 상관관계 분석, 0.5 이상일 겨우

2. 각각의 설명변수에 대한 단순 회귀모델 추정 후 다중 회귀분석 실시하여 결과 비교

3. 변수 상관행렬을 통해 고유치(eigenvalue) 산출, 고유치의 최소 치와 최대치의 비를 나타내는 상태수 k 값을 산출, 30이상이면 공선성 의심

4. 분산팽창인자(VIF: variance inflation factor), 10 이상이면 공선 성

5. 상태지수(condition index) : 30 이상일 경우 다중 공선성 존재

(16)

다중 회귀분석

다중 회귀분석

지리통계학 제10강

최재헌 교수

다중 회귀분석의 기본원리

(1)다중 회귀분석의 개념

– 하나의 종속변수와 여러 개의 독립변수(설명 변수)와의 관계를 파악

– 다른 설명변수의 영향력을 통제한 상태에서 특정한 설명변수와 종속변수와 관계 파악 – 최소자승법을 통해 k차원의 공간에서 가장

적합한 회귀평면 추정

– 변수들간의 정규성, 산포도, 상관관계 파악이 전제 (그림 9-1, p.299)

– Y = Xb + e 의 열벡터로 표현

(2) 회귀계수의 표준화

– 회귀계수(Beta)는 개개의 설명변수와 종속변수간 의 관계를 표현, 측정단위에 따라 회귀계수가 달 라짐.

– 회귀계수의 크기 비교를 위해 회귀계수를 표준화 시킴

• 원자료를 표준화 점수(z-score)로 변환 시킨후 회귀 분 석을 실행, 베타계수(B)는 모든 설명변수와 종속변수를 표준화 점수로 변환 후에 측정한 계수

• 설명변수의 표준편차(Sx)를 종속변수의 표준편차(Sy)로 나눈 비율을 각각의 회귀계수에 곱하여 측정척도에 따 른 차이를 보정하는 방법

– 설명변수의 표준화한 회귀계수가 크다는 것은 이

설명변수에 의해 종속변수가 더 큰 영향을 받고

있다는 의미

(3) 편상관계수와 부분상관계수

• 편상관계수(partial correlation coefficient):

• 부분상관계수(part correlation)

다중 회귀모델의 설정과 모델 검정

(1) 모델의 설정 단계

– 목적: 종속변수에 영향을 미치는 설명변수를 통해 종속변 수의 총 분산을 최대한도로 설명

– 6단계

① 회귀모델의 목적 명시, 가설명시, 변수간 예상 관계

② 연구디자인 구상(표본 크기, 유의수준, 변수와 사례수와의 관계), 변수:사례수 = 1:5, 1:15, 또는 1:20

③ 기술통계, 산포도를 통해 정규성과 선형성 검사, 더미변 수 필요성 등 고려

④ 설명변수 선정(공선성 고려, 전후방 단계선정 방법 등 이 용), OLS를 통한 모수 추정, 잔차에 대한 가정 진단

⑤ 이상치와 영향력있는 사례 진단

⑥ 회귀모델에 대한 해석

모델 설정을 위한 변수 선정방법

• 설명력이 높은 적정한 규모의 설명 변수 선정이 과제

• n 개의 설명변수에서 산출가능한 회귀식은 2

– 1

• 단계 회귀분석(stepwise regression analysis)

최적화기준(C p )에 입각한 모델 선정

• 결정계수( R

)을 기준으로 최적의 회귀모델 선정, 그러나 설명변수의 수에 따라 결정계수 값이 증가하는 문제점 1. 회귀계수의 개수(p) 차이에 따라 산출된 결정계수의 값

을 조정한 adjusted R

값을 이용

2. C

지수 사용, 잔차를 최소화하는 모델로서 모수의 수가 증가할수록 잔차와 n-p가 감소하는 것을 이용하여 산출

C

회귀모델의 적합도 검정

• 추정치의 표본오차가 작을수록 결정계수가 클수록 적합

공선성(multicollinearity) 검정

공선성의 진단과 처방

• 공선성 존재의 추정 결과

• 공선성 진단방법

더미변수(dummy variable)를 이용한 회귀모델

• 더미변수: 범주형 설명변수를 의미, 명목척도로 측정된 변수

• 0, 1로 나타내며, 다른 회귀계수들을 추정하는데 영향을 미치지 않음

• K 개의 범주를 가지는 경우 더미변수는 수는 k-1임.

• 더미변수를 첨가하기 전의 회귀모델과 첨가한 후의 회귀 모델이 평행하게 나타나면 더미변수의 첨가적 효과

(additive effect)가 있음을 의미

• 설명변수와 상호작용이 있는 경우 기울기가 달라진다.

최적화기준(C _p )에 입각한 모델 선정