회귀분석 (Regression)
Review
• 우리는 현재 ( 변수와 변수 ) 관계에 관심
• 관계가 있다 ? 없다 ?( 검정의 문제 )
• 어느정도 관계가 있는가 ?( 추정의 문제 ?)
• 다른 변수값을 예측 또는 추정한다면
• 수학 60 점이니까 물리는 70 점이겠다 ( 계량 => 계량 )
• 회귀분석
• 영어가 550 점이니까 불합격 하겠네 ( 계량 => 명목 )
• 로지스틱 회귀분석
• 남자니까 검은색 좋아하겠네 ( 명목 => 명목 )
• 로그선형모형
아버지 신장 (X)
아들의 신장 (Y)
회귀분 석의 유 래
• 아버지키가 크면 아들 키도 큰가 ?
• 아들키를 아버지키로 예측가능한가 ?
• 두 변수간에 관계식은 ?
검정문제검정문제
추정문제추정문제
아버지 신장 (X)
아들의 신장
(Y) Y= 90+0.5X
회귀분석 결과
• 일차함수식으로 표현
• 90, 0.5 의 의미는 ?
• 절편과 기울기 (intercept, slope)
수식에서 추정과 검정 단계는
• 통계학의 데이터분석은 추정과 검정 의 단계로 이루어져있다
• 독립변수 (X) 와 종속변수 (Y) 의 관계 식에서
• Y = a + b X
• 추정 : 회귀식 , 회귀계수
• 검정 : 독립변수의 영향력 (b=0?), 모형 의 적합성 등
영향을 주는 변 수
영향을 받는 변 수
요약
• 회귀분석의 정의
• 독립변수와 종속변수의 관계를 규명
• 관계식 ( 회귀식 ) 을 추정하고
• 관계 ( 영향력 ) 의 유무를 검정한다
• 회귀분석의 종류
• 단순회귀분석 : 독립변수의 수가 1
• Simple regression
• 다중회귀분석 : 독립변수의 수가 2 이상
• Multiple regression
마케팅에서 회귀분석 적용 예
• 독립변수는 계량 , 명목 가능
• 종속변수는 계량만 가능 ( 명목일 때는 다른 분석 사용 )
독립변수 종속변수
연령 , 수입 , 학력 , 주거
연령 , 수입 , 학력 , 주거 구매성향구매성향
광고액광고액 매출액매출액 가격 , 광고시간 , 점포수
가격 , 광고시간 , 점포수 매출액매출액 근무년수 , 상여금 , 교육
근무년수 , 상여금 , 교육 판매원 업적판매원 업적
종속변수
종속변수 상수 항
상수항 회귀 계수
회귀계수 독립독립변수변수 오차 항 오차항
입력변수
모수 : 추정할 값 확률변수 : 추정 못 함
( 단순 )
회귀분석의 모형
n i
X
Y
i
i
i, 1 , ,
자료의 입력
매출액 (Y)
광고시간 (X)
97 45
95 47
94 40
92 36
90 35
85 37
83 32
76 30
73 25
71 27
α, β 를 추정한다
α, β 를
추정한다
• 잔차 (residual) 를 최소화 하는 회귀직선식을 구함
Residual
α, β 는 어떻게
추정하는가
?
X Y ˆ ˆ ˆ
Y
iYˆ
i ( ˆ )
2min Y
iY
i• 최소자승법 (Ordinary Least Squares :OLS) 에 의한 최소자승추정량 (Least Square Estimates) 회귀계수의 유
도
( ˆ )2 ( ˆ ˆ )2min
Y
iY
iY
i X
i0 ˆ )
( ˆ ˆ
2
Yi Xi0 ˆ )
( ˆ ˆ
2
Yi Xi
2
) (
) )(
ˆ (
X X
Y Y
X X
i
i
iX Y
ˆ ˆ
SPSS 실습
( 광고 _ 매출액 .sav)독립변수와 종속변수만을 대입
그래프 출
력 결과
출력 결과
22
1. 1 509
.
ˆ 42 X
Y
• 모형 :
• 가설 :
=> 독립변수가 종속변수에 영향을 주는 가 ?
( 절편에 관한 검정은 중요하지 않음 )
• Idea : 만약 가 0 이라면 X 의 변화 가 Y 에 전혀 영향을 주지 못한다 .
회귀계수 의 검정
0 :
. 0
:
10
vs H
H
X
Y
다시 출력결과
• 유의확률이 5% 보다 적으므로 효과 있다
• 즉 , 광고시간이 매출액에 영향을 준다
< 참고 > 6.7222=?
결정계수 (R 제곱 )
• 유의성 검정에서 귀무가설이 기각되더라도 이는 기울기가 0 이 아니라는 것뿐이지 추정 된 회귀식이 전체자료를 잘 설 명해 주고 있다고 판단하기는 어렵다 .
• 그래서 표본자료로부터 추정된 회귀선이 그 측정자료에 어느 정도 적합한가를 측정하는 측 도인 결정계수 (coefficient of determination) 가 필요하게 된다 .
• 관측값 y 의 총변동은 회귀선에 의해 설명되는 변동과 설명되 지 않는 변동으로 나누어진다
• SST=SSR+SSE
• R2=SSR/SST
• R2=1 이면 회귀선으로 y 의 총변동이 완전히 설명된다는 것을 의미한다 . R2=0 이면 회귀선으로 x 와 y 의 관계를 전혀 설명하지 못한다는 의미
출력결과에서 결 정계수는 ?
• 결정계수 =0.850
• 전체제곱합 =820.4
• 회귀제곱합 =697.004
• 결정계수 =697.004/820.4
단순회귀분석 예제
• 참고자료
• 자료 : 키 _ 몸무게 .sav
• 키와 몸무게 자료
• 종속변수와 독립변수는 ?
• 분석단계
• 산점도
• 관계식 ( 회귀식 ) 추정
• 관계여부 검정
출력결과
출력결과의 해석
• 산점도를 보니 키와 몸무게 사이에 선형관계가 있는 것으로 판단된다
• 몸무게 (Y) 와 키 (X) 의 회귀식을 구해보니
• Y=-124.6+1.09X 의 관계를 갖는다
• 키가 몸무게에 영향을 주는가를 검정하여본 결과
• H0: B=0 의 가설이 유의확률 0.000 으로 기각되어 관계가 있는것 으로 판단된다
• 결정계수 (R 제곱 ) 는 0.676 으로 매우 높게 나타나서 데이 터 총변동의 67.6% 를 회귀선에 의해서 설명된다고 할 수 있다 .
• 그런데 키가 0 이면 몸무게도 0 이 되어야 하는데…
절편없는 회귀선
중회귀분석
• 모형
• 관심
• 회귀계수의 추정
• 유의성 검정
• 어떤 독립변수가 종속변수를 설명하는 가
• 변수선택 ( 모형의 선택 )
X X
kX
kY
1 1 2 2
예제
• 결과
• SPSS 에 의하여 확인
• 통계분석 => 회귀분석 =>
선형
매출액
(Y) 광고시
간 (X1) 판매원 수 (X2)
97 45 130
95 47 128
94 40 135
92 36 119
90 35 124
85 37 120
83 32 117
76 30 112
73 25 115
71 27 108
광고 _ 매출액 _ 판매원 .sav
2 1
0 . 463 763
. 0
709 .
ˆ 2
X X
Y
X2 계수는 유의하지 않
음
X2 계수는 유의하지 않
음
출력결과
X1, X2 의 상관계수가
높다 X1, X2 의 상관계수가
높다
질문 :
매출액에
판매원수 (X2) 는 영향을 주지 않는가 ?
• X2 의 계수는 유의하지 않다 ( 유의확률 0.108)
• 그러나 중회귀에서 그것은 단순한 문제 가 아님
• 다중공선성의 문제
Y 와 X2 를 단순회귀분석
하면
• 두 변수의 관계 매우 유의함• 그런데도 X2, X1 을 포함하는 회귀식에 서 X2 가 의미가 없다고 나온 이유는 ?
다중공선성
• X2 가 Y 를 설명할 부분을 X1 이 먼저 설 명했기 때문
• X1 과 X2 의 상관계수가 높음
• 이런 현상을 다중공선성 (multicollinearit y) 이라 한다 .
• 제거방법
• 덜 중요한 변수를 제거
• 독립변수들의 결합 ( 요인분석 , 단순 평 균화 )
• 표본의 수를 많이 뽑음
다중공선성 진단
분산 팽창 인수 (VIF, Variance Inflation Factor)
• VIF 가 10 이상
• 공차한계가 0.1 미만이면 심각한 다중공선성 존재
• 공차한계는 1/VIF
중회귀분석에서 유 의할 점
• 변수들간에 다중공선성이 나오지 않도 록 유의
• 모형에 변수를 포함시키는 방법 고려 .
변수선택법
• 입력 : 모든 변수 포함• 다중공선성의 가능성
• 전진 : 가장 유의한 변수를 하나씩 포함
• 한번 들어온 변수는 다시 나가지 않음
• 후진 : 가장 유의하지 못한 변수를 제거
• 한번 제거된 변수는 영원히 제외
• 단계선택 : 전진 + 후진을 반복
• 유의한 변수를 선택한 후 모형이 바뀜으로 인 해 유의하지 않은 변수가 생겼는지를 다시 파 악
예제 자료 >
맥주 .sav중회귀분석 예제
• 단순회귀분석에서 체중 자료 확장
• multiple.sav
• 몸무게 , 키 , 신발크기
• 종속변수와 독립변수는 ?
• 분석순서
• 산점도
• 변수들간의 관계식 추정 ( 단계식 회 귀 )
• 독립변수의 유의성 검정
행렬식 산점도
출력결과
• 단계식 회귀로 키 , 신발크기가 차례로 입력
분산분석표 결과
• 모형의 유의성은 ? 유의확률 .000b
• SST=? SSE=? SSR=?
• 결정계수는 ?
출력결과의 해석
• 산점도를 보니 키 , 발크기와 몸무게 사이에 선형관계가 있 는 것으로 판단된다
• 몸무게 (Y) 와 키 (X1), 발크기 (X2) 의 회귀식을 구해보니
• Y=-146+0.726X1+0.33X2 의 관계를 갖는다
• 키와 발크기가 몸무게에 영향을 주는가를 검정하여 본 결과
• H0: B1=0 의 가설이 유의확률 0.001 으로 기각되어 키가 몸무게에 영향을 주는 것으로 판단된다
• H0: B2=0 의 가설이 유의확률 0.001 으로 기각되어 발크기가 몸무 게에 영향을 주는 것으로 판단된다
• 결정계수 (R 제곱 ) 는 0.727 으로 매우 높게 나타나서 데이 터 총변동의 73% 를 회귀선에 의해서 설명된다고 할 수 있 다 .
더미 (dummy) 변수 회귀분석
• 독립변수 중에 명목변수 포함 (0 또는 1)
• 예 > 남 vs 여 , 청년 vs 장년 , 구매 vs 비구매
• 0,1 을 코딩하여 그 값을 해석한다
• Y=b0+b1X1+b2X2 에서
• X1=0 은 여자 , X1=1 은 남자이 면
• Y=b0+b2X2 ( 여자 )
• Y=b0+b1+b2X2 ( 남자 )
• 남녀간에 기울기가 다른 것은 아니 고 절편사이에 b1 만큼의 차이가 있다
虚拟变量
X2 Y
Y=b0+b2X2 Y=b0+b1+b2X2
b1
b1
남
여
더미 (dummy) 변수 회귀분석
• Y=b0+b1X1+b2X2+b3X1X2 에서
• X1=0 은 여자 , X1=1 은 남자이면
• Y=b0+b2X2 ( 여자 )
• Y=(b0+b1)+(b2+b3)X2 ( 남자 )
• 남녀간에 기울기가 b3 만큼 기울기 가 다르고 절편사이에 b1 만큼의 차 이가 있다
X2 Y
Y=b0+b2X2 Y=b0+b1+(b2+b3)X2
b1
남
여 1
b2 1
b2+b3
더미 회귀분석 예제
• 자료 multiple.sav
• 키 , 몸무게 , 성별
• 종속변수와 독립변수는 ?
• 더미변수의 코딩은 ?
• 분석
• 산점도
• 회귀식
• 관계의 검정
출력결과
• 더미 변수의 포함
• 남녀간에 차이가 없는가 ?
• 차이가 있다면 절편의 차이인가 ? 기울기의 차이인가 ?
비선형회귀분석
• 산점도 결과 두변수의 관계가 선형이 아닐때
• 이차함수 , 지수함수 , 로그함수 형태
• 적당한 형태의 변환을 통해
• 결정계수값을 증가
• 해석의 어려움이 증가
• Trade off
• 자료 nonlinear.sav
출력결과
• 비선형회귀
• 직선보다는 로그함수형 태
• 선형회귀 결정계수 0.7 9
• 비선형회귀 결정계수 0.856