다중 회귀분석
지리통계학 제10강
최재헌 교수
다중 회귀분석의 기본원리
(1)다중 회귀분석의 개념
– 하나의 종속변수와 여러 개의 독립변수(설명 변수)와의 관계를 파악
– 다른 설명변수의 영향력을 통제한 상태에서 특정한 설명변수와 종속변수와 관계 파악 – 최소자승법을 통해 k차원의 공간에서 가장
적합한 회귀평면 추정
– 변수들간의 정규성, 산포도, 상관관계 파악이 전제 (그림 9-1, p.299)
– Y = Xb + e 의 열벡터로 표현
(2) 회귀계수의 표준화
– 회귀계수(Beta)는 개개의 설명변수와 종속변수간 의 관계를 표현, 측정단위에 따라 회귀계수가 달 라짐.
– 회귀계수의 크기 비교를 위해 회귀계수를 표준화 시킴
• 원자료를 표준화 점수(z-score)로 변환 시킨후 회귀 분 석을 실행, 베타계수(B)는 모든 설명변수와 종속변수를 표준화 점수로 변환 후에 측정한 계수
• 설명변수의 표준편차(Sx)를 종속변수의 표준편차(Sy)로 나눈 비율을 각각의 회귀계수에 곱하여 측정척도에 따 른 차이를 보정하는 방법
– 설명변수의 표준화한 회귀계수가 크다는 것은 이
설명변수에 의해 종속변수가 더 큰 영향을 받고
있다는 의미
(3) 편상관계수와 부분상관계수
• 편상관계수(partial correlation coefficient):
– 다른 설명변수들의 영향이 통제된 상태에서 해당 설명변수가 한 단위 증가할 때 종속변수의 변화량을 나타내는 계수,
– 여러 설명변수의 효과를 제어한 경우 종속변수와 특정 설명변수 간에 나타나는 상관계수
– 표준화 회귀계수와 마찬가지로 개개의 설명변수의 독자적인 영 향력을 측정, 즉 각각의 설명변수에 의해 설명되어진 종속변수의 분산 비율
• 부분상관계수(part correlation)
편상관계수값 > 부분상관계수
다중 회귀모델의 설정과 모델 검정
(1) 모델의 설정 단계
– 목적: 종속변수에 영향을 미치는 설명변수를 통해 종속변 수의 총 분산을 최대한도로 설명
– 6단계
① 회귀모델의 목적 명시, 가설명시, 변수간 예상 관계
② 연구디자인 구상(표본 크기, 유의수준, 변수와 사례수와의 관계), 변수:사례수 = 1:5, 1:15, 또는 1:20
③ 기술통계, 산포도를 통해 정규성과 선형성 검사, 더미변 수 필요성 등 고려
④ 설명변수 선정(공선성 고려, 전후방 단계선정 방법 등 이 용), OLS를 통한 모수 추정, 잔차에 대한 가정 진단
⑤ 이상치와 영향력있는 사례 진단
⑥ 회귀모델에 대한 해석
다중 회귀분 석의 실행 단계와 단계 별 과정의 특색
모델 설정을 위한 변수 선정방법
• 설명력이 높은 적정한 규모의 설명 변수 선정이 과제
– 설명변수의 수가 많을수록 종속변수에 대한 분산 비율은 높아지 나 회귀모델의 규모가 커지고 복잡
– 설명변수의 수가 적을수록 종속변수에 대한 분산비율은 낮아짐
• n 개의 설명변수에서 산출가능한 회귀식은 2
n– 1
• 단계 회귀분석(stepwise regression analysis)
① 전방선정법(forward selection)
• 종속변수와 편상관관계가 높은 설명변수부터 추가하여 모델 구축, 정지규 칙에 부합하면 정지
② 후방제거법(backward elimination)
• 모든 변수를 다 사용한 전체모델에서 t값이 작은 변수 순으로 하나씩 제거 하다가 정지규칙에 부합할 경우 정지
③ 단계적 선정법(stepwise selection)
• 전방선정법과 후방제거법을 결합하여 이미 진입한 변수들과 제거한 변수 들을 서로 교환하여 가장 적합한 모델을 선정
최적화기준(C p )에 입각한 모델 선정
• 결정계수( R
2)을 기준으로 최적의 회귀모델 선정, 그러나 설명변수의 수에 따라 결정계수 값이 증가하는 문제점 1. 회귀계수의 개수(p) 차이에 따라 산출된 결정계수의 값
을 조정한 adjusted R
2값을 이용
2. C
p지수 사용, 잔차를 최소화하는 모델로서 모수의 수가 증가할수록 잔차와 n-p가 감소하는 것을 이용하여 산출
–
C
p 값이 모수 p의 값과 일치할수록 잔차가 작아져서 적합성이 높아짐P: 회귀계수의 수 K: 설명 변수의 수
회귀모델의 적합도 검정
• 추정치의 표본오차가 작을수록 결정계수가 클수록 적합
1. 추정치의 표준오차
2. 결정계수(coefficient of determination)
3. 분산 분석표를 통한 적합성 검정
4. 추정치에 대한 검정
• 개별 설명변수에 대한 유의성 검정을 위해 개별적인 회귀계수에 대해 t 검 정을 실시.
공선성(multicollinearity) 검정
• 다중회귀분석 에서는 설명변 수들 간에 상관 성이 없어야 함.
• 설명변수들 간 에 상관관계가 높게 나타날 경 우 공선성이 높 다고 하며, 높 은 상관관계를 보일 경우 다중 공선성이 존재
• 다중공선성이 높을 경우 편회 귀계수의 추정 값, 표준오차가 부정확하며, 회 귀계수를 왜곡, 통계적 유의성 감소
공선성의 진단과 처방
• 공선성 존재의 추정 결과
1. 설명변수들 간의 상관계수가 매우 높은 경우
2. 한 설명변수를 모델에 추가하거나 기존의 변수를 제거할 경우 추정된 회귀계수의 크기나 부호가 크게 변동하는 경우
3. 결정계수는 상당히 크지만 회귀계수들 가원데 통계적으로 유 의성이 없는 회귀계수가 산출되는 경우
4. 중요한 영향력을 가질 것이라 예상되는 설명변수가 유의미하 게 나타나지 않을 경우
5. 추정된 회귀계수의 부호가 기존 연구나 이론 토대에서 알려진 부호와 상반되는 경우
• 공선성 진단방법
1. 설명변수 들간에 상관관계 분석, 0.5 이상일 겨우
2. 각각의 설명변수에 대한 단순 회귀모델 추정 후 다중 회귀분석 실시하여 결과 비교
3. 변수 상관행렬을 통해 고유치(eigenvalue) 산출, 고유치의 최소 치와 최대치의 비를 나타내는 상태수 k 값을 산출, 30이상이면 공선성 의심
4. 분산팽창인자(VIF: variance inflation factor), 10 이상이면 공선 성
5. 상태지수(condition index) : 30 이상일 경우 다중 공선성 존재