3. 다중 회귀분석 3.1. 3.1. 모형의 개요

(1)

3. 다중 회귀분석

(2)

3.1. 모형의 개요

• 정의

– 한 개의 종속변수와 두 개 이상의 독립변수와 의 선형관계를 파악하는 방법

• 모형의 형태

• 모형의 추정

– 최소제곱법(OLS: Ordinary Least Squares)

(3)

3.2. 다중회귀분석 사례

(1) 분석데이터

– 라디오와 TV광고의 효과

<8장-3-1-1.데이터.sav>

(2) 분석과정

– STEP 01:[선형] 메뉴를 클릭

– STEP 02: 변수 지정

(4)

(3) 결과해석

– 모형의 분산분석결과

– R

²

또는 수정된 R

²

(5)

– 각 모수 추정치의 유의도

– 전반적인 모형의 적절성

(6)

3.3. 오차항의 독립성, 정규성 분석

(1) 분석개요

– 오차항이 독립적인지 정규분포를 하는지 검정

– 더빈-왓슨의 검정통

계량을 통해 분석

(7)

② 오차의 자기상관(autocorrelation) 문제 : ⓐ 주요 독립변수가 누락되었을 때,

ⓑ 적용한 함수의 형태가 자료에 부적합할 때 흔히 발생.

<참고> 더빈-왓슨(Durbin-Watson) 통계량 ㉠ D-W 값이 2에 가까우면 ⇒ 자기상관 무시.

㉡ D-W 값이 0에 가까우면 ⇒ 정(positive)의 자기상관.

㉢ D-W 값이 4에 가까우면 ⇒ 부(negative)의 자기상관.

즉, 0이나 4에 가까우면 모형이 부적합 함.

(8)

(2) 분석과정

– STEP 01: [선형] 메뉴 를 클릭 후, 변수를 지 정

– STEP 02: 통계량을 지

정

(9)

(3) 결과해석

더빈-왓슨(Durbin-Watson) 통계량이 2에 가까으로 ⇒ 자기상관을 무시한다.

(10)

3.4. 다중공선성 분석

(1) 분석개요

– 다중회귀분석에서 독립변수들간에 상관관계가 있는 경우

– 독립변수들 중에 절대값이 0.95 이상으로 높은 상관 관계가 있을 경우에는 R

²

는 높으나 추정된 베타 값들 이 유의하지 않은

– 진단통계량: 고유값이 0.01이하이거나 조건지표 값이 100이상, 분산팽창요인(Variance Inflation Factor)은 일반적으로 10이상, 허용도 (tolerance)는 0.1값보다 작은 독립변수가 있을 경우

• (2) 분석데이터

– 13개의 관찰치를 갖는 독립변수 4개와 종속변수 1개

(11)

(3) 분석과정

– STEP 01: [선형] 메뉴를 클릭 해 변수를 지정

<8장-3-4-1.데이터.sav>

– STEP 02: 통계량 중 공선성

진단 체크

(12)

(4) 결과해석

– 모형과 계수를 확인

(13)

– 공선성 진단(p.338 분석결과 참조)

(14)

3.5. 최적 회귀모형의 선정

(1) 분석개요

– 후진 – 전진 – 단계

(2) 분석과정

<8장-3-4-1.데이터.sav>

– STEP 01: [선형] 메뉴

를 클릭해 변수지정

– STEP 02: 방법을 지정

(15)

<Note> 다중회귀분석에서 고려사항

1. 설명변수의 선택 1) 좋은 회귀식

① 결정계수(기여율)가 높은 회귀식 : 설명변수가 많을 수록 결 정계수가 높아짐 – 수정된 결정계수 이용.

② 추정 값의 표준오차(잔차의 표준편차)가 낮은 회귀식.

2) 설명변수의 선택방법

① 모든 가능한 회귀 : 모든 설명변수들을 한꺼번에 투입하는 방 법으로서, ‘방법(M)’에서 ‘입력’을 선택한다.

② 단계적 선택법(stepwise regression) : 주어진 조건에 만족 하는 설명변수들을 단계적으로 선택하는 방법.

③ 전진선택법(forward selection) : 단계적선택법과 같은 방법 으로 선택하나, 한번 선택된 변수들은 계속 모형에 포함됨.

④ 후진제거법(backward elimination) : 일단 모든 설명변수들 을 선택한 후, 조건에 맞지 않는 변수들을 차례로 제거하는 방법.

(16)

2. 이상점의 탐지 – 이상점은 해당 자료의 보편적인 값보다 매우 크 거나 작은 값을 의미하며, 분석결과에 영향을 미치므로 제거한 후 분 석하는 것이 옳다.

<note> 이상점을 탐지하는 방법 (1)거리(distance)를 계산

① Mahalanobis의 거리 : 각 표본점과 독립변수의 평균과의 거리를 말하는데, 이 값이 크면 이상점이라 할 수 있다.

② Cook의 거리 : 한 표본이 회귀분석에 포함되었을 때와 그렇지 않 을 때의 잔차의 차이로 부터 계산함.

(2) 산포도에 의한 방법 : 각 독립변수의 종속변수에 대한 산포도를 그려 관찰한다.

3. 다중 회귀분석 3.1. 3.1. 모형의 개요