상관분석과 회귀분석
한동대학교
강병덕
상관관계 Correlation
• 두 개의 연속 변수 간의 관계
• 관계의 종류
– 양의 상관관계 (두 변수가 같은 방향으로 움직 임)
– 음의 상관관계 (두 변수가 다른 방향으로 움직 임)
• 두 변수가 상관이 있다?
• 두 변수가 독립이다?
• 상관의 정도(degree)는 두 확률변수의 공 분산(covariance)을 척도로 사용하여 측정
Cov (X, Y) = E {(X – X평균)(Y – Y 평균)}
– 공분산 = 두 확률변수 사이의 상관성(의존성) 에 대한 척도
– 공분산 = 두 변량이 각각의 평균으로부터 변 화하는 방향 및 양에 대한 기대값
• 상관계수 = 정규화된 공분산
– 공분산을 각 변수의 표준편차의 곱으로 나누어 단 위화
– 측정단위가 공분산에 값이 영향을 줌으로 측정단 위의 영향을 없애기 위해 표준화가 필요함
• 피어슨 상관계수 : 두 변수가 모두 연속 변수
– 양수 (r > 0) … 두 변수가 같은 방향으로 움직임 – 음수 (r < 0) … 두 변수가 다른 방향으로 움직임 – 영 (r = 0) … 두 변수 간에 직선적인 혹은 비례적
인 관계를 발견할 수 없음 (통계적으로 독립)
• 피어슨 상관계수를 검정하기 위한 두 가 지 조건
– 정규분포
– 구성원소의 독립
• 피어슨 상관계수의 의미에 대한 해석에 서 주의할 점
– 두 변수 간의 상관관계가 있다는 것이 인과 관계가 존재한다는 것을 의미하는 것은 아님
• 스피어맨 순위상관 (r
s)
– 각 관찰값이 전체 표본에서 차지하는 순위를 바탕으로 상관계수를 구하는 것
– 변수의 극단값에 영향을 덜 받음
• 스피어맨 순위상관의 장점
– 등간 또는 비율척도로 측정된 변수 뿐 아니 라 서열척도로 측정된 두 변수 간의 상관 또 한 계산 가능
Rule of Thumb
Correlation
Coefficient Interpretation
0.0 = | r | No Correlation
0.0 < | r | < 0.2 Very Weak Correlation 0.2 ≤ | r | < 0.4 Weak Correlation
0.4 ≤ | r | < 0.6 Moderately Strong Correlation 0.6 ≤ | r | < 0.8 Strong Correlation
0.8 ≤ | r | < 1.0 Very Strong Correlation 1.0 = | r | Perfect Correlation
회귀분석
회귀분석의 가정 Assumptions
• 변수 속성
– DV : 연속변수 (등간 또는 비율 변수)
– IV : 연속변수 또는 이분형(dichotomous) 변수
• 선형 관계 Linearity
• 독립성 Independent Cases
• 오류의 독립성 Independent Errors
– No patterns of residuals
• 등분산성 Homoscedasticity
– Constant variance
• 공선성 (변수들의 독립성) No Multicollinearity
– Predictors(Ivs) must not be highly correlated
• Normally distributed Errors
y = ax + b
x y
b
1 단위
a
y의 평균
회귀식 : Least Squares Methods
총제곱의 합 = 회귀제곱의 합 + 잔차제곱의 합
영가설이 사실 … 회귀제곱의 합 < 잔차제곱의 합
Error
SST SSR SSE
회귀식의 설명력
r
2 = SSR / SST= 1 – SSE / SST
1
2 2 3
단순회귀분석
결과 해석
보고서 작성
<표> 학년 수에 따른 근로소득액 분석
(독립)변수 비표준화 계수 t p 학년수 9.898 27.895 .000
r2 = .152
(독립)변수 비표준화 계수 t
학년수 9.898 27.895***
*** p < .001 r2 = .152
다중회귀분석 결과 해석
변수간의 계수 크기 비교
오차항의 독립성 진단
0에 가까우면 양의 상관관계, 4에 가까우면 음의 상관관계, 2에 가까우면 독립성이 있음
공선성 진단
VIF는 1보다 크고 10보다 작아야 함
<표> 출산에 영향을 미치는 요소 분석
변수 비표준화계수 표준화
계수 t p VIF gnp .000 -.156 -2.686 .008 1.570 death .176 .775 13.304 .000 1.570
r2 = .771 Adj. r2 = .767
아래와 같이 보고서를 작성하였다면..
100점 만점에 몇 점을 줄 것인가?