단순회귀분석

(1)

단순회귀분석

지리통계 9강

최재헌 교수

(2)

회귀 분석의 기본 원리

• 회귀분석: 설명변수가 종속변수에 어떤 영 향을 미치고 있는가를 분석하는 통계기법

회귀분석(regre ssion analysis)

선형(linear) 회 귀분석

단순(simple lin ear) 회귀분석 다중(multiple li

near) 회귀분석

비선형(nonline ar) 회귀분석

다항(polynomi al)회귀분석 곡선(curvilinea

r)회귀분석

(3)

회귀분석의 기본개념

• 종속변수와 독립변수간의 관계에 초점, 모델을 설 정하고 데이터를 통해 검정

• 독립변수가 종속변수에 미치는 영향력의 크기를 측정하여 종속변수 값을 예측

• 이론가설 수립 à 자료 수집à모델 설정 à통계분 석을 통해 모델의 적합성과 타당성 검정 à 회귀계 수 산출 à 모수 추정

• 모델의 적합성과 타당성 문제시 반복적 과정 실행

• X변수와 Y변수간의 관계: 교육수준과 실업률, 도시

화수준과 1인당 국민소득, 경제성장과 출산률

(4)

• 선형회귀모델: 설명변수와 종속변수가 직선적 관계

• 산포도 작성 (scatter plot): 설명변수는 x 축 상에, 종속변수는 Y축 상에 좌표로 표시

• Y = a + bX 선형 모델

– 직선이 아닌 경우 직선으로 변환이 필요 – a 는 절편(상수항); X=0 일 경우 Y 값

– b 는 기울기로 X가 한단위 변화할때 대응하는 Y 값의 변화 – a와 b를 회귀계수(coefficient of regression)이라고 함

– Y의 예측치는 항상 Ŷ (Y hat)으로 표시

• 회귀분석이란 X변수와 Y변수와의 관계를 결정하는 최적의 회 귀선(최적선, best-fitting line)을 추정하는 것

• 최적선은 실측치와 예측치와의 차이인 잔차(ei = Yi – Ŷ) 를 가 장 작게 해 주는 선

– 예측치>실측지: 과대추정, 잔차는 (-) – 예측치<실측치: 과소추정, 잔차는 (+)

• 잔차 제곱의 최소값을 구하기 때문에 최소자승법(OLS:

ordinary least square method)라고 함

(5)

(6)

(7)

회귀계수 해석시 유의점

• X 값에 따른 Y값을 예측할 때 X의 관측치의 범위를 넘어 예측하면 안됨

• 산출된 상수 a 의 값이 음수로 추정되었을 경우 실제 현 상에서는 드문 경우기 때문에 해석에 유의해야 함

• 사회과학에서 인과관계를 설정하기 어렵기 때문에 예측 보다는 설명을 위한 목적으로 사용

(8)

1) 회귀모델의 적합도 검정

1. 추정치의 표본오차(standard error of estimate) 비교

– 예측값과 실측값의 차이를 잔차라고 하면 추정치의 표준오차 (Se)는 잔차들의 표준편차

– 실측치가 회귀식에서 얼마나 떨어져 있는가를 나타내는 지표

(9)

(10)

2. 결정계수 비교

– 산포도에 회귀선을 그어 시각적으로 파악, 회귀선이 실측치에 가 까울 수록 적합도가 높음

– 결정계수 산출: 총분산은 설명변수에 의해 설명된 부분과 설명되 지 못한 부분의 합

– 결정계수는 Yi의 총분산 가운데 회귀식에 의해 설명된 분산의 비 율

(11)

3. F 검정

• 회귀식에 의해 설명된 회귀분산과 회귀식에 의해 설명되지 못한 잔 차의 비율을 비교하는 방법

• 분산분산표에 의해 F 통계량을 사용하여 검정, 평균분산의 비율을 자유도를 고려하여 임계치와 비교

• F 값이 커질수록 설명력이 높은 회귀식

(12)

2) 추정치 검정

• 회귀분석에서 산출된 모수에 대한 통계적 유의성 검정

• 회귀분석은 설명변수 X의 값에 상응하는 종속변수 Y에 대해 회귀식을 가정하고, 최소자승법에 의해 모수인 를 추정

• (1) 모수 b 에 대한 검정

(13)

회귀분석의 진단과 처방에 따른 실행의 반복 단계

(14)

회귀모델의 가정에 대한 진단과 처방

• 회귀모델의 기본 가정

1. 측정오차의 배제: 설명변수와 종속변수의 측정에서 측정오차가 적거나 없어야 함

2. 명시적 오차의 배제: 어떤 설명변수도 관련성이 있 는 한 배제할 수 없으며, 상관성이 없으면 포함하지 않음

3. 직선관계가 있다는 가정과 변수들의 정규분포

• 오차에 대한 기본 가정

(15)

• 정규성(normality): 오차는 설명변수가 설명하지 못하는 Y 의 편차인데, 이 오차의 평균은 0이며, 분산은 정규 분포를 이룬다.

• 등분산성(homoscedasticity): Yi 의 평균을 중심으로 한 오차의 분산은 동일해야 한다.

• 독립성(independence of error): 서로 다른 X 값에서 나타 나는 오차들은 서로 상호관계가 없이 독립적이어야 한다.

(16)

잔차분석

잔차란 회귀모델의 예측치와 실제치 간의 차이를 나타내는 데, 잔차의 합은 ‘0’이며 잔차들의 Xi에 대한 가중합은 ‘0’이다.

잔차들의 분산은 독립변수에 영향을 받기 때문에 동일하지 못하다 이에 다라 잔차값을 표준화 시킨다. 잔차의 절대값이 변수의 측정 단위에 따라 달라져서 비교하기 어려울 경우 표 준자타을 이용하는데, i 번째 사례의 잔차에 대한 표준 편차 산출식은 다음과 같다. . 표본잔차는 평균이 0이고, 표준편차 는 1이다.

(17)

잔차도 (residual map)

• 잔차의 분포도는 Y 변수의 공간적 자기상관의 존재 여부 를 시각적으로 판단 가능

• 잔차도는 각각의 사례에 대한 잔차를 분포화한 것으로 회귀식의 적합도가 지역에 따라 얼마나 차이가 있는지를 보여주는 지도

• 단계구분도, 등치선도, 도형단계도 등으로 시각화 가능

• 유용성

– 잔차도의 패턴을 통해 새로운 가설 수립 – 지역별 경계 설정이나 수정이 가능

– 야외조사 대상지 선정과 새로운 설명변수 구축

(18)

회귀모델 가정 진단법

1. 잔차의 그래프화 2. 등분산성과 이분산성

(19)

3. 정규성과 비정규성

Rankit plot 작성

(20)

4. 비선형 관계의 선형화

(21)

5. 잔차의 자기상관 검정

• 서로 다른 시차의 오차항이 서로 상관되는 것, 시계열 자 료에서 앞의 오차항이 뒤의 오차항에 영향을 미치는 경 우

• 자기상관이 발생하면, 오차항들이 독립적이라는 가정에 위배하고, t, F, R 제곱 값이 모두 과대 추정되는 경향이 있음.

• Durbin-Watson 검정 방법

• 0<d<4 의 범위, 0에 가까우면 종속변수의 변량간에 정 (+) 상관관계 존재, 4에 가까우면 부(-)의 상관관계가 나 타남. 자기 상관이 없을 경우 d=2에 가까움

(22)

이상치와 영향력 있는 사례에 대한 진단

• 이상치(outlier): 잔차 의 값이 너무 커서 다 른 점들에 비해 회귀 선에서 너무 멀리 떨 어져 있는 점

• 영향력 있는 사례 (influential point): 대 다수의 점들이 위치 한 분포지역에서 크 게 벗어난 점들

• à 산출된 회귀계수 를 편기시키며, 종속 변수의 설명력에 영 향을 미침

(23)

이상치에 대한 예시 1

(24)

이상치에 대한 예시 2

(25)

이상치와 영향력 있는 지점에 대한 진단

• 표준잔차(ZRESID)의 절대값이 3 이상일 경우 이례적인 사례로 평가

• Leverage 를 이용하여 영향력 있는 사례를 평가, 레버리 지 값은 각 사례가 회귀모델에 미치는 영향력을 진단하 는 지수

– 레버리지 값이 크다면 그 사례는 X의 평균에서 상당히 떨어져 있 음을 의미, 이상치의 기준은 2(p+1)/n 임

• 레버리지 지점은 잔차는 상당히 작지만 회귀계수에 미치 는 영향력이 크며, 이상치는 회귀계수에 미치는 영향력 은 작으나 잔차는 상대적으로 크다.

(26)