• 검색 결과가 없습니다.

제 제 12 12 장 회귀분석 장 회귀분석

N/A
N/A
Protected

Academic year: 2023

Share "제 제 12 12 장 회귀분석 장 회귀분석"

Copied!
39
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1

제 제 12 12 장 회귀분석 장 회귀분석

 단순회귀분석

 단순회귀분석의 개요

• 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만 , 단순선형회귀 분석 (simple linear regression; 이하 단순회귀분석 ) 은 두 변수간의 인과관계 (casual relationship) 를 조사하는 방법임 .

독립변수 ( 예측변수 ) : 영향을 미칠 것으로 생각되는 변수 .

종속변수 ( 기준변수 ) : 영향을 받을 것으로 생각되는 변수 .

→ 두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당논리적 타당 성을 토대로

성을 토대로 해야 하며 , 논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로 소 두 변수간의 인과관계가 있는 것으로 추정할 수 있으나 , 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수 , 다른 하나를 종속변수로 설정하여 회귀 분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과 관계가 있다고 주장할 수는 없는 것임 ( 회귀분석의 결과 만으로는 결코 인과관계회귀분석의 결과 만으로는 결코 인과관계 를 규명할 수 없음

를 규명할 수 없음 ).

단순회귀분석의 가장 기본적인 과업은 과 을 구하는 것이며 , 기본식은 다음

과 같다 . 0 1

X Y

0

1

(2)

2

제 제 12 12 장 회귀분석 장 회귀분석

• 자료

 종속변수 : 간격 / 비율척도로 측정된 계량적 자료 (quantitative data).

 독립변수 : 간격 / 비율척도로 측정되지만 경우에 따라 명목척도로 측정된 자료를 사용 할 수 있으며, 이 경우 독립변수를 더미변수 (dummy variable) 라고 함 .

• 가정

 독립변수와 종속변수간의 선형적 관계 : 독립변수값의 변화에 따른 종속변수값의 변화 가 일정해야 함을 의미 .

» 상관관계 : 두 변수간의 선형관계에 토대를 둠 .

» 회귀분석 : 독립변수와 종속변수간의 선형관계를 가정할 수 있어야 함 .

 오차항의 정규뷴포 : 오차항의 기대값 0, 일정한 분산 (constant variance) 을 갖는 정 규분포를 이룬다고 가정할 수 있어야 함 .

» 오차항 (error term) : 종속변수의 관측치와 예측치간의 차이 .

 오차항의 독립성 : 의 변화에 따라 오차항이 어떤 패턴 (pattern) 을 가져서는 안 된 다. 예를 들어 , 이 커짐에 따라 오차값이 커지면 가정에 위배되는 것임 .

SPSS 10.0 을 이용한 단순회귀분석

• 제 11 장에서 예로든 [ 예 11.] 을 이용하여 광고비를 독립변수로 , 매출액을 종속변수로 하는 단순회귀분석을 실행해 보기로 함 .

y y

(3)

3

제 제 12 12 장 회귀분석 장 회귀분석

• 연구문제 : 광고비 지출은 매출에 영향을 미 치는가 ?

 메뉴 바에서 『분석(A) → 회귀분석 (R) → 선형 (L) 』를 선택하면…

(4)

4

제 제 12 12 장 회귀분석 장 회귀분석

[ 방법 (M) ]

• 입력 : 모든 독립변수들이 동시에 투입됨 ( 기본설정 ).

• 그 밖의 단계선택 (stepwise), 제거 (remov e), 전진 (forward), 및 후진 (backward) → 단순회기분석에서는 입력방만이 적용되므 로 이외의 방법은 다중회귀분석에서 설명

(5)

5

제 제 12 12 장 회귀분석 장 회귀분석

• 회귀계수

 추정값 (E) : 회귀계수 추정치를 표시 ( 회귀계수 / 베타 / 표준오차 /t-value/ 유의수준 등 ; 기본 설정 ).

 신뢰구간 (N) : 회귀계수에 대한 95% 신뢰구 간 표시 .

 공분산행렬 (V) : 공분산 및 상관행렬을 표시 ( 대각선에는 분산이 표시되고 대각선의 위와 아 래에는 공분산이 표시됨 ).

 모형적합 (M) : 다중 R, R2, 수정된 R2, 표준 오차 등을 표시 ( 분산분석표에는 자유도 , 제곱 , 평균제곱 , F 값 등이 표시됨 ; 기본설정 ).

R 제곱 변화량 (S) : 변수를 추가하거나 삭제하 는데 따르는 R2 변화정도를 의미하며 , 단순회 귀분석에서는 별 의미가 없으므로 다중회귀분 석의 단계선택방식에서 보다 자세히 설명할 것 .

 기술통계 (D) : 각 변수의 평균 / 표준편차 / 모 든 입력변수들간의 상관관계 .

(6)

6

제 제 12 12 장 회귀분석 장 회귀분석

 공선성진단(L) : 개별 변수에 대한 공차한계 (tolerance) 와 그 밖에 공선성 문제 진단을 위한 다양한 통계량을 표시 .

• 선택법 기준

F- 확률 사용 (O)\ 진입 (E) .05 제거 (M) .10 ( 기본설정 ) : 다중회귀분석을 하는 경우 단계선택법을 사용할 때 어떤 변수가 회귀식에 들어갈 것인가를 결정하는데 사용되는 .

 방정식에 상수항 포함(I) : ( 기본설정 )

 목록별 결측값 제외 (L) : ( 기본설정 )

(7)

7

제 제 12 12 장 회귀분석 장 회귀분석

(8)

8

제 제 12 12 장 회귀분석 장 회귀분석

• R2(R square로 읽음 ) 는 결정계수 (coefficient of determination)라고 불리는데 , 종속변수의 분산 중 몇 % 가 독립변수에 의해 설명되는가를 나타 내며 0 과 1 사이의 값을 갖는다 .

• 합계의 제곱합 (Total SS) 은 종속변수를 평 균값으로 추정하는 경우의 전체분산을 나 타내며, 선형회귀분석의 제곱합 (SSR) 은 종속변수를 회귀식으로 추정하는 경우에 설명되는 분산을 나타내고, 잔차의 제곱

• 위 표에 따르면 R2 .766 으로서 광고비와 매출액의 상관계수 제곱과 같은 값임 .

(SSE) 은 종속변수를 회귀식으로 추정하는 경우 설명되지 않는 분산을 의미 .

246 . 747 26

. 46

927 .

1226

F

(9)

9

제 제 12 12 장 회귀분석 장 회귀분석

• R2는 종속변수의 전체 분산 중 회귀식 ( 혹은 독립변수 ) 에 의해 설명되는 비율을 나타내므 로 다음과 같다 .

y

xi X

yi

y

y

Total SS SSE

SSR

766 900 .

. 1600

927 . 1226

) (

)

2 (

Total SS

R SSR

제곱합 합계의

제곱합 선형회귀분석의

• 선형회귀분석의 자유도 = 독립변수의 수 =1

• 잔차의 자유도 = 표본의 크기 – 독립변수의 수 – 1 = 10 – 1 – 1 = 8

• 합계의 자유도 = 표본의 크기 – 1 = 10 – 1 = 9

(10)

10

제 제 12 12 장 회귀분석 장 회귀분석

• 광고비에 대한 회귀계수는 정 ( 正 ) 으로 나타났으며 매우 유의적이므로 (t = 5.123; p-valu e = .001) 광고비의 증가에 따라 매출이 증가하는 경향이 있는 것으로 해석할 수 있음 .

• 회귀식을 이용한 종속변수 값의 추정 : 위 과정을 거쳐 독립변수가 유의적이면 , x 값이 주 어진 경우 y 의 값을 추정할 수 있으나 , 독립변수가 유의적이지 않으면 x 는 y 에 영향을 미친다고 할 수 없으므로 x 값으로부터 y 값을 추정해서는 안됨 .

 위 회귀식의 경우 독립변수가 유의적으로 나타났으므로 다음 달에 1 억원에 광고비 지 출을 하는 경우 Y = 46.49 + 52.57X = 46.49 + 52.57 × 1 = 99.06, 따라서 이 경우 99.06 억원의 매출이 예상됨 .

주의 주의 : 발견한 회귀식에 의하여 : 발견한 회귀식에 의하여 yy값을 추정할 때 원래 사용한 값을 추정할 때 원래 사용한 xx의 범위 내에서만 가의 범위 내에서만 가 능하다능하다. (. (Why) Why) 원래 그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 원래 그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 가능성이 크기 때문임

가능성이 크기 때문임.

Xi

Y 46.486 52.568

:  

회귀식

123 . 261 5 . 10

568 .

52

t

(11)

11

제 제 12 12 장 회귀분석 장 회귀분석

 다중회귀분석

 다중회귀분석의 개요

• 다중회귀분석의 개념과 추정방식 : 현실적으로 종속변수에 영향을 미치는 독립변수를 두 개 이상 고려해야 되는 경우가 빈번하며 , 다중회귀분석 (multiple regression analysis) 은 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법으로 단순회귀분석을 확장한 것임 .

• 다중회귀식을 추정하는 방식

 동시입력방식(enter) : 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석 하는 방법으로 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력을 알 수 있 으며, 또한 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있음 .

 단계입력방식(stepwise) : 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이 있 는 변수들만을 회귀식에 포함시키는 방식으로 , 설명력이 높은 변수의 순으로 회귀식에 포함되게 되며, 전 단계에서 회귀식에 포함된 독립변수들도 나중에 들어오는 변수때문 에 설명력이 매우 낮아지면 회귀식에서 제거되며 , 종속변수를 설명하는 데 있어서 설 명력이 어느 정도 이상되는 변수들로만 구성된 회귀식을 발견하는 데 유용.

• 다중회귀분석의 가장 기본적인 과업은 각 계수들을 구하는 것이다 .

k k

X X

X

Y ˆ   ˆ

0

  ˆ

1 1

  ˆ

2 2

‥‥‥   ˆ

(12)

12

제 제 12 12 장 회귀분석 장 회귀분석

• 자료와 가정 : 단순회귀분석의 자료 및 가정과 동일 .

SPSS 10.0 을 이용한 다중회귀분석 ( 입력방식 )

 한 방송국에서는 65 세 이상 시청자들을 위한 TV 프로그램을 개발하기로 하였다 . 이를 위한 기초정보를 획득하기 위해 25 명의 시청자들을 대상으로 설문조사를 하여 다음의 네 가지 변 수에 관한 자료를 수집한 결과 < 표 12.5> 와 같이 나타났다 .

y = 일일 평균 TV 시청시간

• x1 = 배우자와 동거여부 ( 만약 배우자와 동거중이면 x1 = 1, 그렇지 않으면 x1 = 0)

• x2 = 연령

• x3 = 교육기간 ( 연수 )

12.5 TV 시청시관과 관련하여 65 세 이상 시청자로부터 수집한 자료

개인 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 시청

시간 .5 .5 .7 .8 .8 .9 1.1 1.6 1.6 2.0 2.5 2.8 2.8 3.0 3.0 3.0 3.2 3.2 3.3 3.3 3.4 3.5 3.6 3.7 3.7

동거

여부 1 1 0 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 연령 73 66 65 65 68 69 82 83 81 72 69 71 71 80 73 75 76 78 79 79 78 76 65 72 80 교육

수준 14 16 15 16 9 10 12 12 12 10 8 16 12 9 6 6 10 6 6 4 6 9 12 12 6

(13)

13

제 제 12 12 장 회귀분석 장 회귀분석

더미변수의 입력 더미변수의 입력 : 회귀분석의 입력자료는 대개의 경우 간격척도 혹은 비율척도로 측정되나 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있으며 , 이 경우 이러한 변수를 더미변수 (dummy variable) 라고 부르며 , 더미변수의 수와 입력방식 은 다음과 같음 .

• 범주의 수가 두 개인 경우 ( 남 / 여 , yes/no) 더미변수의 수는 한 개이며 , 한 범주를 1, 다른 범주를 0 으로 입력 .

• 만약 범주의 수가 세 개인 경우 ( 세단 승용차 , 해취백 , 웨곤형 ) 더미변수의 수는 두개이 며 다음과 같이 입력됨 .

더미변수의 수 = 범주의 수 – 1

범주 더미변수 1 더미변수 2

세단형 0 0

해취백 1 0

웨곤형 0 1

(14)

14

제 제 12 12 장 회귀분석 장 회귀분석

연구문제 : 동거여부 , 연령 , 그리고 / 혹은 교육기간은 TV 시청시간에 영향을 미치는 가 ?

• 세 독립변수는 결합적으로 종속변수의 분산을 설명하는 데 유용한가 ?

• 각 독립변수는 다른 두 독립변수가 회귀식에 포함된 경우 종속변수의 분산을 설명하 는 데 유용한가 ?

메뉴 바에서 『분석 (A) → 회 귀분석 (R) → 선형 (L) 』를 선택하면…

(15)

15

제 제 12 12 장 회귀분석 장 회귀분석

• 방법

 입력(Enter) : 모든 독립변수 들이 동시에 투입됨 ( 기본설 ).

(16)

16

제 제 12 12 장 회귀분석 장 회귀분석

 단계선택 (Stepwise) : 여러 개의 독립변수들 중에서 설명력이 어느 정도 높은 변수들 로만 회귀모델을 구성하기 위한 것으로, 첫 단계에서는 종속변수와 상관관계가 가장 높은 변수가 회귀식에 들어가며 , 두 번째 단계 ( 그리고 그 후의 단계 ) 에서는 전 단계 에서 들어가지 않은 변수들 중 종속변수와 가장 높은 편상관관계 (partial correlation) 를 갖는 변수가 들어감( 각 단계에서는 기존에 진입한 각 변수의 유의성 검증이 이루어 지며, 비유의적인 변수는 제거됨 ).

» 단계선택방식에서 진입조건 : F 값 혹은 p-value 지정 → 진입조건을 충족시키는 변수가 더 이상 없는 단계에서 분석 종료 .

 전진(Forward) : 단계선택과 마찬가지로 상관관계 ( 혹은 편상관관계 ) 가 높은 독립변 수의 순서로 회귀식에 진입하며 , 다만 단계선택과는 달리 기존에 진입한 변수는 제거 되지 않음.

 후진(Backward) : 모든 독립변수들이 한꺼번에 들어가서 각 단계에서 종속변수에 대 한 설명력이 낮은 순서로 제거되며, 기준은 F 값 혹은 p-value 로 지정되며 , 이 기준 에 달하는 변수가 더 이상 없으면 종료됨.

(17)

17

제 제 12 12 장 회귀분석 장 회귀분석

R 제곱 변화량 (S) : 변수를 추가하거나 삭제하는데 따르는 R2 변화정도를 의미하며 , 이는 다중회귀분 석에서 입력방식에는 적용되지 않음 .

 공선성진단(L) : 개별 변수에 대한 공차한계 (tolera nce) 와 공선성 문제 진단을 위한 다양한 통계량을 표시하며 , 이는 다중회귀분석을 실행할 때 지정하 는 기능으로서 한 독립변수가 다른 독립변수 ( 들 ) 와 선형관계를 갖고 있을 때 발생하는 공선성( 다중 공 선성) 의 문제를 검증하기 위한 것임 .

• 잔차

Durbin-Waston(U) : 시계열자료 (time series data) 를 회귀분석한 경우 오차항 (error term) 의 값들이 서 로 상관관계가 있는지를 조사하는 데 사용되는 값이 며, 종속변수를 설명하는데 중요한 변수 ( 들 ) 가 포 함되지 않은 경우에 오차항의 값들간에 상관관계가 높게 나타날 수 있다 . 분석결과 도출되는 Durbin-W aston 값이 Durbin-Waston 검증영역표의 어디에 해당하는지에 따라 상관관계 유무를 결론지으며, 시계열자료를 회귀분석하는 경우가 아니라면 반드시 체크할 필요 없음.

(18)

18

제 제 12 12 장 회귀분석 장 회귀분석

 케이스별 진단(C) : 분석대상 케이스들의 회귀식에 의한 예측값 , 예측값과 실제값의 차이( 잔차 ) 값들을 나타내며 , 전체 케이스에 대하여 나타낼 수도 있고 , 이상값 (outl ier), 예를 들어 예측값이 “실제값의 3× 표준편차”를 벗어난 케이스에 대하여 나타낼 수 있음.

• 선택법 기준

F- 확률 사용 (O)\ 진입 (E) .05 제거 (M) .10 ( 기 본설정) : 단계선택방식에서만 의미를 가짐 .

 방정식에 상수항 포함(I) : 기본설정

 목록별 결측값 제외 (L) : 기본설정

(19)

19

제 제 12 12 장 회귀분석 장 회귀분석

(20)

20

제 제 12 12 장 회귀분석 장 회귀분석

• 각각의 독립변수는 종속변수와 모두 유의 적인 상관관계가 있는 것으로 나타났으며 (p < .05), 또한 연령과 교육기간간에는 유의적인 負의 상관관계가 있는 것으로 나 타났다(r = -.501; p-value = .005) 이 결 과는 연령과 교육기관 간에 약간의 공선성 이 존재할 가능성이 있음을 알게 해주는 부 분임 .

• R2는 .626 으로서 종속변수 ( 시청시간 ) 62.6% 설명하고 있음을 알 수 있으며 , 자유도를 반영한 Radj2(adjusted R2로 읽 음) 는 .572 로 나타남 .

• R2 : 다중회귀식의 결정계수 (coefficient of determination) 로서 종속변수의 분산 중 독립변 수들( 혹은 회귀식 ) 에 의해 설명되는 비율로서 회귀식에 독립변수가 추가됨으로써 점차 커짐 .

(21)

21

제 제 12 12 장 회귀분석 장 회귀분석

• Radj2 : R2를 약간 증가시키기 위해 독립변수가 추가되는 낭비를 막기위해 R2를 독립변수의 수와 표본의 수로써 조정한 것으로 , R2 보다 작으며 , 새로이 추가되는 어떤 변수의 추가적 설명력이 매우 작은 경우 R2는 조금이라도 증가하나 Radj2는 오히려 감속하므로 이 변수를 독립변수에 포함시키는 것을 부적절하다고 할 수 있음 .

• n ↑ Radj2 R2

• k ↓Radj2 R2

표 12.10 분산분석표

원천 제곱합(SS) 자유도 평균제곱 (MS) Fobs

회귀식 SSR 독립변수의 수 – 1 MSR = SSR/독립변수의 수 MSR/MSE 오차 SSE n – 독립변수의 수 –

1

MSE = SSE/(n – 독립변수의 수 – 1)

전체 Total SS n – 1

572 1 .

3 25

1 ) 25

626 . 1 ( 1 1

) 1 1

( 1

626 927 .

. 11 933 . 19

933 . 19

2 2

2

k n R n R

SSE SSR

SSR SS

Total R SSR

adj

n = ∞, Radj2 = R2

k = 1(가장 작은 값 ), Radj2 = R2 므로

독립변수 (k) 수에 비해 n 이 작을수록 R2 보다 Radj2는 작아진다 ( 독 립변수의 수가 클수록 n 의 크기는 상대적으로 매우 커야만 함 ).

~ ~

(22)

22

제 제 12 12 장 회귀분석 장 회귀분석

• “ 회귀식의 설명력 (R2) 이 0 이라는 귀 무가설(H0 : β1 = β2 =  = βk= 0)” 을 기각하게 되므로 회귀식이 종속변수를 설명하는 데 유용하다고 할 수 있음 .

상대적 영향력의 크기를 나타내 줌 ( 동거여부 > 교육기간 >연령

• 본 분석결과 다중회귀식은 비표준화계수 (B) 에 의해 다음과 같이 표시됨 .

) (

3 )

( 2 )

(

1

0 . 03876 . 152

176 .

1 495 .

1 X

동거여부

X

연령

X

교육기간

Y    

(23)

23

제 제 12 12 장 회귀분석 장 회귀분석

 각 독립변수의 유의성 검증

• “ 동거여부”는 다른 두 변수 ( 연령 , 교육기간 ) 가 회귀식에 포함되어 있는 경우 유의적이다 (p-value = .001) → 동거여부의 부호가 負 (–) 로 나타났으므로 , 입력자료에 따라 동거 (X1

= 1) 를 하는 경우 동거를 하지 않는 경우 (X1 = 0) 에 비하여 값이 1.176 만큼 작아지므로 배우자와 동거하는 사람의 경우 그렇지 않은 사람에 비하여 TV 시청시간이 보다 짧다고 해 석할 수 있음 .

• 연령은 다른 두 변수가 회귀식에 포함되어 있는 경우 비유의적이다 (p-value = .238).

• 교육기간은 다른 두 변수가 회귀식에 포함되어 있는 경우 유의적이다 (p-value = .006) → 부호가 負 (–) 로 나타났으므로 교육기간이 길수록 TV 시청시간이 적다고 할 수 있음 .

 독립변수 영향력의 상대적 크기 : 회귀계수의 경우는 단위를 반영하고 있기 때문에 이를 비교 해서는 안되며, 표준화된 회귀계수 (standardized beta coefficient; 입력자료를 표준화시켜 ( 평균 = 0. 표준편차 = 1) 분석한 것 ) 를 비교해야 함 .

(24)

24

제 제 12 12 장 회귀분석 장 회귀분석

 공선성(collinearity; 하나의 독립변수가 다른 독립변수에 의해서 설명되는 것 ) 통계량 .

• 공선성 통계량의 공차한계와 분산팽창요인 : 독립변수들간의 다중공선성을 판단하기 위한 지표 .

• 공성선 (collinearity) : 두 개의 독립변수들간의 관계를 의미하는데 , 예를 들어 두 개의 독 립변수간의 상관관계 계수가 1 이면 완전한 공선성 (complete collinearity) 을 보인다고 하 , 계수가 0 이면 전혀 공선성이 없음 (complete lack of collinearity) 을 의미하며 , 특히 세 개 이상의 변수들간의 관계를 다중공선성 (multicollinearity) 이라 하고 , 한 독립변수가 종속변수에 대한 설명력이 높더라도 다중공선성이 높다면 설명력은 낮은 것처럼 나타남 .

• 다중공선성을 알아보기 위한 가장 간단한 방법 : 독립변수들간의 상관관계 조사하며 , 보 다 엄격하게 공선성을 점검하려면 공차한계와 분산팽창요인을 보면됨 → 이 두 가지 지표들 은 한 독립변수가 다른 모든 독립변수들에 의해서 설명되는 정도를 알려줌 ( 상관관계의 제 곱값은 한 독립변수가 다른 한 독립변수에 의해 설명되는 정도만을 알려줌 ).

 공차한계 (tolerance) : 공성선을 점검하기 위해 가장 많이 사용되는 지표로서 변수 i 의 공차한계 (TOLi) 는 (1-Ri2) 로 표시되며 , 여기서 Ri2는 독립변수 i 가 다른 독립변수들 에 의해 설명되는 정도를 의미하며, 즉 독립변수 i 를 종속변수로 설정하고 다른 독립 변수들을 이용하여 회귀분석한 경우의 R2에 해당 → 한 독립변수가 다른 독립변수들에 의해서 설명되지 않는 부분을 의미 : Ri2값이 클수록 공차한계 값이 작아지는데, 공차 한계 값이 작을수록 그 독립변수가 다른 독립변수들에 의해 설명되는 정도가 크다는 의 미로 다중공선성이 높다 .

(25)

25

제 제 12 12 장 회귀분석 장 회귀분석

 분산팽창요인(variance inflation factors; VIF) : 공차한계의 역수로 표시되며 (VIFi = 1 /TOLi), VIF 값이 클수록 독립변수들간의 공선성 정도가 높음을 의미 .

 공차한계의 최대값은 1( 한 독립변수가 다른 독립변수들에 의해 설명되는 정도 = 0) 이 며, 공선성 판단을 위한 일반적인 기준은 공차한계 .10 이하 , 분산팽창요인 10 이상 이나, 공선성 존재여부는 연구자들이 적절한 수준에서 판단하여야 함 .

 공선성을 낮추기 위해서는 상관관계 높은 독립변수들 중에서 한 변수를 제거하고 회귀 모형을 구성하거나, 독립변수 입력방식을 단계입력방식으로 설정하여 설명력이 높은 독립변수만을 회귀모형에 삽입시키는 방법이용 가능.

• 공선성진단을 위한 다른 값들로서 고유값(eigenvalue) 은 독립변수들 의 곱셈값의 행렬을 요인분석함으 로써 얻어지며, 각 차원의 상태지 수는 가장 큰 고유값을 그 차원 의 고유값으로 나눈 값의 제곱근 값임 .

595 . 506 2

.

408 .

2의상태지수 3

차원 ( 참고 ) ∑eigenvalue = 변수의 수

(26)

26

제 제 12 12 장 회귀분석 장 회귀분석

• 상태지수 (condition index) 값이 15 보다 크면 (30 을 기준으로 하는 경우도 있음 ) 공선성 이 문제될 수 있음 .

• 분산비율 : 추정치의 분산 중 각각의 차원에 의해 설명되는 비율로서 , 높은 상태지수를 갖 는 차원에서 두 개 이상의 변수들의 분산비율이 상당히 높으면 공선성이 존재할 가능성이 존재 ( 위 표 중 차원 4 와 연령 → ∴ 연령과 교육기간간에는 공선성이 존재할 가능성이 존 재할 가능성이 있다고 할 수 있음 ).

(27)

27

제 제 12 12 장 회귀분석 장 회귀분석

 SPSS 10.0 을 이용한 다중회귀분석 ( 단계입력방식 )

메뉴 바에서 『분석 (A) → 회귀분석 (R) → 선형 (L)』를 선택하면…

(28)

28

제 제 12 12 장 회귀분석 장 회귀분석

(29)

29

제 제 12 12 장 회귀분석 장 회귀분석

• R 제곱 변화량 (S) : R2의 변화량으로서 독립변 수가 추가됨으로써 R2가 얼마나 커지는지를 나 타내며 , 한 변수와 관련하여 R2 변화량이 크다 는 것은 그 변수가 종속변수에 대한 설명력이 높 음을 의미하며 , R2 변화량은 다중회귀분석에서 단계선택 방식에서만 의미를 가짐 .

(30)

30

제 제 12 12 장 회귀분석 장 회귀분석

• 선택법 기준

F- 확률 사용 (O)\ 진입 (E) .05 제거 (M) .10 ( 기본설정 ) : 단 계선택의 경우 적용되는 것으로서 회귀식에 포함되지 않은 독 립변수들 중 .05 보다 유의적인 변수는 포함되며 , 기존에 포 함된 독립변수라도 새로운 독립변수의 진입에 따라 유의성이 .10 보다 떨어지면 회귀식에서 다시 제거됨을 의미하며 , 보 다 설명력이 높은 변수들로만 구성된 회귀식을 도출하기를 원 할수록 두 값을 보다 낮게 설정하면 됨 .

F- 값 사용 (V) : 3.84 와 2.71 이 활성화되며 , 이는 자유도 1, ∞ 에서 각각 α= .05 와 α=.10 의 경우의 F- 값임 .

(31)

31

제 제 12 12 장 회귀분석 장 회귀분석

• 종속변수는 시청시간이고 모델개발을 위한 독립변수 투입방식은 단계선택방식으로서 1 단계에서는 교육기간만이 독립변수로서 투입되었고 , 2 단계에서는 동거여부가 추가적인 독립변수로 투입 되었음을 알 수 있으며 , 변수의 진입 및 제거기준은 각각 p-valu e .05 와 .1 임이 나타나 있음 .

• 1 단계에서 교육기간만 투입되어 회귀분석 한 결과 R2 .375 로 나타났으며 , 2 단계에서 동거여부가 추가적으로 투입된 결과 R2 .599 로서 .255 만큼 증가하였으며 , R2의 증가 량은 유의적인 것으로 나타났음 (F 변화량 = 12.342, p-value = .002).

입력방식에 비하여 자유도가 달라지면서 값이 변화

(32)

32

제 제 12 12 장 회귀분석 장 회귀분석

• 각 단계별 회귀식의 유의성을 보여주 고 있으며 , 교육기간만을 투입한 회 귀모형 1 과 동거여부를 추가적으로 투입한 회귀모형 2 는 모두 유의적인 것으로 나타났으며 , 회귀모형 1 에 비하여 회귀모형 2 가 보다 유의적임 을 알 수 있음 ( 회귀모형 : F-value

= 13.777, p-value = .001; 회귀 모형 2 : F-value = 16.456, p- value = .000)

동거여부가 통제되었을 때

교육기간이 통제되었을 때

(33)

33

제 제 12 12 장 회귀분석 장 회귀분석

• 회귀식의 발견과 독립변수의 유의성 : 단계선택방식에 의해 독립변수들을 입력한 결과 얻 어진 최종 회귀모형은 Y( 시청시간 ) = 4.646 - .184X1( 교육기간 ) – 1.096X2( 동거여부 ) 이며 , 각 계수값은 모두 유의적인 것으로 나타남 (p < .01).

 상관관계계수 도해

• 0 차 상관계수 (zero-order correlation) : 두 변수간의 상관계수 , 즉 Pearson 상관계수 값 으로 , 아래 그림에서 파란색 부분은 각각 교육기간과 동거여부가 y 를 설명하는 정도로서

< 표 12.17> 에 있는 0 차 상관계수를 제곱하면 다음과 같음 .

 (– .612)2 = .3745; 교육기간은 y 의 분산을 37.45% 설명 .

 (– .521)2 = .2714; 동거여부는 y 의 분산을 27.14% 설명 .

TV 시청시간 (y)

교육기간 동거여부

TV 시청시간 (y)

교육기간 동거여부

(34)

34

제 제 12 12 장 회귀분석 장 회귀분석

• 회귀식의 설명력 ( 두 변수에 의해 설명되는 y 의 분산 ) : 파란색 부분은 교육기간과 동거여부가 결합하여 y 를 설명하는 정도로서 < 표 12.15> 에 있는 R2 .599이다

. TV 시청시간

(y)

교육기간 동거여부

(35)

35

제 제 12 12 장 회귀분석 장 회귀분석

• 교육기간에 의해 설명되지 않는 y 의 분산 : 파란색 부분은 교육기간에 의해 설명되 지 않는 분산으로서 1 – .3745 = .6255 이다 .

TV 시청시간 (y)

교육기간 동거여부

(36)

36

제 제 12 12 장 회귀분석 장 회귀분석

• 편상관계수 (partial correlation) : 동거여부가 진입함으로써 설명하는 부분으로 다른 독립 변수의 효과를 제거한 후 ( 혹은 통제된 상태에서 ) 한 독립변수와 종속변수의 상관관계이 . 즉 , 교육기간에 의해 설명되지 않는 y 의 분산 중 35.88% 는 동거여부에 의해 설명된 .

TV 시청시간 (y)

교육기간 동거여부

(37)

37

제 제 12 12 장 회귀분석 장 회귀분석

• 부분상관계수 (part correlation) : y 의 전체 분산 중 특정변수의 순수한 설명력을 제곱근한 값으로 , 교육기간에 의해 설명되지 않는 부분은 .6255 이며 , 이 중 동거여부가 설명하는 부분은 편상관계수값 35.88% 이므로 , .6255×.3588 =.244 이며 이는 y 의 전체 분산 중 22.44% 가 동거여부에 의해 설명됨을 의미하며 , 이 값을 제곱근한 값 ±.4737 이 동거여 부의 부분상관계수가 됨 .

TV 시청시간 (y)

교육기간 동거여부

(38)

38

제 제 12 12 장 회귀분석 장 회귀분석

• 각 단계별 모형에서 제외된 변수들에 대한 통계량이 제시되고 있으며 , 단계선택 방식이 입 력방식과 다른 점 중의 하나는 바로 이렇게 분석에서 제외된 변수들에 대한 통계량이 제시 된다는 것임 .

 교육기간만을 투입한 회귀모형 1 에서 제외된 변수인 동거여부와 연령에 대한 통계량 이 제시되어 있으며 , 여기서 진입베타 , t 값 및 유의확률은 그 변수가 회귀모형에 추가 적으로 투입되는 경우에 해당하는 베타값 , t 값 , 및 유의확률을 의미 .

 회귀모형 1 에서 동거여부가 추가적으로 투입되는 경우에 그 계수값이 유의적이므로 이를 추가적으로 투입하여 회귀모형 2 를 구성하게 되며 , 이 경우 연령에 대한 통계량 은 비유의적이므로 추가투입되지 않으며 , 만약 유의적이었다면 동거여부와 연령 중에 서 편상관계수가 큰 변수가 우선적으로 투입됨.

 동거여부가 추가적으로 투입된 회귀모형 2 에서 제외된 변수인 연령에 대한 통계량이 비유의적이므로 더 이상 단계적 투입이 진행되지 않고 교육기간과 동거여부만을 가지 고 최종 회귀모형이 구성됨.

(39)

39

제 제 12 12 장 회귀분석 장 회귀분석

• 상태지수는 15 보다 작으므로 공선성문제는 존재하지 않는 것으로 판단되며 , 교육기간과 연령간에 약간의 공선성이 의심되며 , 입력방식과 비교해 볼 때 공선성이 의심되는 두 독립 변수 ( 교육기간과 연령 ) 중 설명력이 약한 연령이라는 변수가 단계선택방식을 통하여 제외 됨으로써 공선성의 문제가 해결되었음을 알 수 있음 .

 입력방식과 단계선택방식에 의한 분석결과의 비교

• 입력방식 : 회귀분석결과 세 개의 독립변수로 구성된 회귀식을 발견하였으며 ,R2 .626 이었음 .

• 단계선택방식 : 회귀분석결과 , 종속변수에 대한 설명력이 낮은 “연령”은 제외된 두 개의 독립변수로 구성된 회귀식을 발견하였으며 R2 .599 이었으며 , 단계선택방식에 의한 분 석의 경우 독립변수의 수가 한 개 적으므로 R2값이 더 작음.

참조

관련 문서

아래와

배타적으로 이용할 수 있는 권리. 일반적으로 10년간 정액법으로 상각.. 2) 프랜차이즈(franchises): 제품이나 서비스의 판매권 및 상표나 상호명의 사용권을

전단벽은 지상에 고정되어 캔틸레버와 같은 거동을 하며, 풍하중이나 지진하중 등 수평하중에 의한 전단력과 휨모멘트 및 중력하중에 의한 축압력을

• 홍보, 교육활동은 물론 노인학대에 대하여 매우 엄격하고 준엄한 벅적 처 벌을 받을 수 있는 제도적 장치를 마련함은 물론 도덕적으로 문화적으로

두부나 콩나물과 같은 기초식품시장 내에서 소비자의 신뢰를 받는 제품 자사 제품의 우월한 위치 선점. 지속적이고

• 고객의 편익과 경쟁패턴을 바꿀 혁신적인 제품 출시로 새로운 표준 확립 (제품혁신, 세분시장혁신, 편익혁신). 시장선도자 Star에 대한 Gillette의 추월

어떤 일정한 판매가격을 가정하여 총 수입과 총비용이.

그러나 임금이 아주 높으면 좌상향의 기울기로 역전... 즉,