다중회귀분석(계속)
1. 다중회귀분석
1) 독립변수의 상대적 기여도 검정 2) 독립변수를 통제한 효과 검증
자상건수=a+b
1(근무경력)+b
2(성별)+b
3(직종)
b=b 1 ?
단순회귀계수=다중회귀계수?
성별
근무경력
직종
자상건수
근무경력 X Y
자상건수 자상건수=a+b
1(근무경력)
1) 선택방법
(1) 모든 독립변수
(2) 단변량 분석에서 유의하였던 변수
(3) 단변량 분석에서 유의하지 않았지만 일반적으로 포함시키는 변수
2) 투입방법
(1) 동시적 다중회귀 모형(Simultaneous)
어떤 독립변수가 다른 것보다 우위에 있다는 이론적 근거가 없을 때 모든 독립변수를 동시에 투입
(2) 위계적 다중회귀 모형(Hierarchial)
연구자가 이론적 근거에 기초하여 설명변수들을 모형에 순차적 투입
(3) 단계적 다중 회귀 모형(Stepwise)
- 통계적 준거(R2의 증가가 큰 순서대로)에 따라 설명변수가 모형에 투입
- 전진선택(forward selection), 후진제거(backward deletion), 단계(true stepwise)
2. 다중회귀분석에서 설명변수의 선택 및 투입
3. 설명변수
1) 등간과 비율수준 : OK 2) 서열수준 : 대부분 OK
3) 명목수준 : 더미코딩 (dummy coding)후 포함
- 한 범주에 속하는 것과 속하지 않는 것으로 이분법화 하여 구성 - 대조집단설정 : 대조집단의 평균에 대한 특정집단의 평균 검정 - 가변수의 수 = 범주수 -1
종교 원 부호 불교 D1 기독교 D2 가톨릭 D3
불교 1 1 0 0
기독교 2 0 1 0
가톨릭 3 0 0 1
기타 4 0 0 0
더미코딩전 : Y = b0+b1X (종교)
더미코딩후 : Y = b0+b1D1(불교) +b2D2 (기독교) +b3D3 (가톨릭)
1) 회귀계수 (b)
- 비표준화된 회귀계수
- 특정 설명변수에 대한 반응변수 예측시 사용
2) 표준화된 회귀계수 (β 가중치) - b 계수를 표준점수로 변환한 값
- 설명변수의 상대적 기여도를 직접 비교가능(척도의 표준화로)
4. 회귀계수와 표준화된 회귀계수
5. 결정계수와 수정결정계수
1) 다중결정계수(R
2)
- 종속변수에 대한 독립변수들의 전체 설명비율 - R2 = 1.0 - 완전한 예측 (예측오차가 0)
- R2 = 0.10 - 큰 예측오차
2) R
2에 대한 수정(Adjustments to R
2)
- 표본 수, 또는 변수 수를 보정한 R2단순회귀에서는 r2
1) 모형구성에 대한 가정
- 종속변수에 영향을 미치는 독립변수가 모두 고려되면 적절하다는 의미
2) 오차(잔차)의 확률분포에 대한 가정
- 오차의 확률분포의 평균은 0
- 각 오차는 근사하게 정규분포를 따름
- 오차의 확률분포의 분산은 독립변수의 모든 값에 대해 동일(등분산성) - 각 오차는 서로 독립적 - 아니면 시계열 분석
3) 설명변수간의 무상관성 : 다중공선성(Multicolinearity)
- 확인: r> .85, Tolerance(1-R2) < 0.1. VIF(Variation Inflation Factor) : >10 - 해결 : 상관성이 높은 변수 중 하나만 선택, 요인분석하여 변수 축소
6. 회귀분석의 가정
다중공선성이 의심되는 경우
1. 설명변수들간의 상관계수가 크게(+1 또는 -1에 가까운 경우) 나타날 때
2. 어떤 설명변수를 모형에 추가하거나 제거하는 것이 추정된 회귀계수의 크기나 부호에 큰 변화를 줄 때
3. 새로운 자료를 추가하거나 기존의 자료를 제거하는 것이 추정된 회귀계수의 크기나 부호에 큰 변화를 줄 때
4. 중요하다고 생각되는 설명변수에 대한 검정결과 유의하지 않거나, 이 설명변수 에 대한 회귀계수의 신뢰구간이 매우 넓을 때
5. 추정된 회귀계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 상반될 때
7. 회귀진단: 모형진단(잔차) + 자료진단(outlier, 영향력)
1. 모형진단: 모형이나 가정의 문제점 검토 1) 잔차의 선형성
- Y와 X사이에는 선형의 관계 - 확인: Y와 X의 산점도
2) 잔차의 정규성
- X값에 대해 Y의 분포는 정규분포
- 확인: 정규확률분포 Q(기대)-Q(관찰) plot Quantile
3) 잔차의 등분산성:
- 모든 X값에 대해 Y의 분산은 동일---> 위배시 가중회귀분석, 로그 또는 루트변환 - Y축: 스튜어던트 잔차, X축: Y 추정값 또는 독립변수간의 산점도 작성
4) 잔차의 독립성
- 자기상관계수=0?
- 더빈-왓슨 통계량=2?
- 잔차와 시간간의 plot
(ZRESID vs ZPRED)