• 검색 결과가 없습니다.

회귀분석

N/A
N/A
Protected

Academic year: 2022

Share "회귀분석"

Copied!
48
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

회귀분석 (Regression)

(2)

Review

• 우리는 현재 ( 변수와 변수 ) 관계에 관심

• 관계가 있다 ? 없다 ?( 검정의 문제 )

• 어느정도 관계가 있는가 ?( 추정의 문제 ?)

• 다른 변수값을 예측 또는 추정한다면

• 수학 60 점이니까 물리는 70 점이겠다 ( 계량 => 계량 )

• 회귀분석

• 영어가 550 점이니까 불합격 하겠네 ( 계량 => 명목 )

• 로지스틱 회귀분석

• 남자니까 검은색 좋아하겠네 ( 명목 => 명목 )

• 로그선형모형

(3)

아버지 신장 (X)

아들의 신장 (Y)

회귀분 석의 유 래

• 아버지키가 크면 아들 키도 큰가 ?

• 아들키를 아버지키로 예측가능한가 ?

• 두 변수간에 관계식은 ?

검정문제검정문제

추정문제추정문제

(4)

아버지 신장 (X)

아들의 신장

(Y) Y= 90+0.5X

회귀분석 결과

• 일차함수식으로 표현

• 90, 0.5 의 의미는 ?

• 절편과 기울기 (intercept, slope)

(5)

수식에서 추정과 검정 단계는

• 통계학의 데이터분석은 추정과 검정 의 단계로 이루어져있다

• 독립변수 (X) 와 종속변수 (Y) 의 관계 식에서

• Y = a + b X

• 추정 : 회귀식 , 회귀계수

• 검정 : 독립변수의 영향력 (b=0?), 모형 의 적합성 등

영향을 주는 변 수

영향을 받는 변 수

(6)

요약

• 회귀분석의 정의

• 독립변수와 종속변수의 관계를 규명

• 관계식 ( 회귀식 ) 을 추정하고

• 관계 ( 영향력 ) 의 유무를 검정한다

• 회귀분석의 종류

• 단순회귀분석 : 독립변수의 수가 1

• Simple regression

• 다중회귀분석 : 독립변수의 수가 2 이상

• Multiple regression

(7)

마케팅에서 회귀분석 적용 예

• 독립변수는 계량 , 명목 가능

• 종속변수는 계량만 가능 ( 명목일 때는 다른 분석 사용 )

독립변수 종속변수

연령 , 수입 , 학력 , 주거

연령 , 수입 , 학력 , 주거 구매성향구매성향

광고액광고액 매출액매출액 가격 , 광고시간 , 점포수

가격 , 광고시간 , 점포수 매출액매출액 근무년수 , 상여금 , 교육

근무년수 , 상여금 , 교육 판매원 업적판매원 업적

(8)

종속변수

종속변수 상수

상수 회귀 계수

회귀계수 독립독립변수변수 오차 오차

입력변수

모수 : 추정할 값 확률변수 : 추정 못 함

( 단순 )

회귀분석의 모형

n i

X

Y

i

   

i

 

i

,  1 ,  ,

(9)

자료의 입력

매출액 (Y)

광고시간 (X)

97 45

95 47

94 40

92 36

90 35

85 37

83 32

76 30

73 25

71 27

α, β 를 추정한다

α, β 를

추정한다

(10)

• 잔차 (residual) 를 최소화 하는 회귀직선식을 구함

Residual

α, β 는 어떻게

추정하는가

?

X Y ˆ   ˆ   ˆ

Y

i

i

( ˆ )

2

min Y

i

Y

i

(11)

• 최소자승법 (Ordinary Least Squares :OLS) 에 의한 최소자승추정량 (Least Square Estimates) 회귀계수의 유

( ˆ )2 ( ˆ ˆ )2

min

Y

i

Y

i

Y

i

  X

i

0 ˆ )

( ˆ ˆ

2

Yi Xi

0 ˆ )

( ˆ ˆ

2

Yi Xi

 

  2

) (

) )(

ˆ (

X X

Y Y

X X

i

i

i

X Y

ˆ   ˆ

(12)

SPSS 실습

( 광고 _ 매출액 .sav)

(13)

독립변수와 종속변수만을 대입

(14)

그래프 출

력 결과

(15)

출력 결과

22

1

. 1 509

.

ˆ 42 X

Y  

(16)

• 모형 :

• 가설 :

=> 독립변수가 종속변수에 영향을 주는 가 ?

( 절편에 관한 검정은 중요하지 않음 )

• Idea : 만약 가 0 이라면 X 의 변화 가 Y 에 전혀 영향을 주지 못한다 .

회귀계수 의 검정

0 :

. 0

:

1

0

  vs H  

H

X

Y    

(17)

다시 출력결과

• 유의확률이 5% 보다 적으므로 효과 있다

• 즉 , 광고시간이 매출액에 영향을 준다

< 참고 > 6.7222=?

(18)

결정계수 (R 제곱 )

• 유의성 검정에서 귀무가설이 기각되더라도 이는 기울기가 0 이 아니라는 것뿐이지 추정 된 회귀식이 전체자료를 잘 설 명해 주고 있다고 판단하기는 어렵다 .

• 그래서 표본자료로부터 추정된 회귀선이 그 측정자료에 어느 정도 적합한가를 측정하는 측 도인 결정계수 (coefficient of determination) 가 필요하게 된다 .

• 관측값 y 의 총변동은 회귀선에 의해 설명되는 변동과 설명되 지 않는 변동으로 나누어진다

• SST=SSR+SSE

• R2=SSR/SST

• R2=1 이면 회귀선으로 y 의 총변동이 완전히 설명된다는 것을 의미한다 . R2=0 이면 회귀선으로 x 와 y 의 관계를 전혀 설명하지 못한다는 의미

(19)

출력결과에서 결 정계수는 ?

• 결정계수 =0.850

• 전체제곱합 =820.4

• 회귀제곱합 =697.004

• 결정계수 =697.004/820.4

(20)

단순회귀분석 예제

• 참고자료

• 자료 : 키 _ 몸무게 .sav

• 키와 몸무게 자료

• 종속변수와 독립변수는 ?

• 분석단계

• 산점도

• 관계식 ( 회귀식 ) 추정

• 관계여부 검정

(21)

출력결과

(22)

출력결과의 해석

• 산점도를 보니 키와 몸무게 사이에 선형관계가 있는 것으로 판단된다

• 몸무게 (Y) 와 키 (X) 의 회귀식을 구해보니

• Y=-124.6+1.09X 의 관계를 갖는다

• 키가 몸무게에 영향을 주는가를 검정하여본 결과

• H0: B=0 의 가설이 유의확률 0.000 으로 기각되어 관계가 있는것 으로 판단된다

• 결정계수 (R 제곱 ) 는 0.676 으로 매우 높게 나타나서 데이 터 총변동의 67.6% 를 회귀선에 의해서 설명된다고 할 수 있다 .

• 그런데 키가 0 이면 몸무게도 0 이 되어야 하는데…

(23)

절편없는 회귀선

(24)

중회귀분석

• 모형

• 관심

• 회귀계수의 추정

• 유의성 검정

• 어떤 독립변수가 종속변수를 설명하는

• 변수선택 ( 모형의 선택 )

     

X X

k

X

k

Y

1 1 2 2

(25)

예제

• 결과

• SPSS 에 의하여 확인

• 통계분석 => 회귀분석 =>

선형

매출액

(Y) 광고시

간 (X1) 판매원 수 (X2)

97 45 130

95 47 128

94 40 135

92 36 119

90 35 124

85 37 120

83 32 117

76 30 112

73 25 115

71 27 108

광고 _ 매출액 _ 판매원 .sav

2 1

0 . 463 763

. 0

709 .

ˆ 2

X X

Y

(26)
(27)

X2 계수는 유의하지 않

X2 계수는 유의하지 않

출력결과

X1, X2 상관계수가

높다 X1, X2 상관계수가

높다

(28)

질문 :

매출액에

판매원수 (X2) 는 영향을 주지 않는가 ?

• X2 의 계수는 유의하지 않다 ( 유의확률 0.108)

• 그러나 중회귀에서 그것은 단순한 문제 가 아님

• 다중공선성의 문제

(29)

Y 와 X2 를 단순회귀분석

하면

• 두 변수의 관계 매우 유의함

• 그런데도 X2, X1 을 포함하는 회귀식에 서 X2 가 의미가 없다고 나온 이유는 ?

(30)

다중공선성

• X2 가 Y 를 설명할 부분을 X1 이 먼저 설 명했기 때문

• X1 과 X2 의 상관계수가 높음

• 이런 현상을 다중공선성 (multicollinearit y) 이라 한다 .

• 제거방법

• 덜 중요한 변수를 제거

• 독립변수들의 결합 ( 요인분석 , 단순 평 균화 )

• 표본의 수를 많이 뽑음

(31)

다중공선성 진단

(32)

분산 팽창 인수 (VIF, Variance Inflation Factor)

• VIF 가 10 이상

• 공차한계가 0.1 미만이면 심각한 다중공선성 존재

• 공차한계는 1/VIF

(33)

중회귀분석에서 유 의할 점

• 변수들간에 다중공선성이 나오지 않도 록 유의

• 모형에 변수를 포함시키는 방법 고려 .

(34)

변수선택법

• 입력 : 모든 변수 포함

• 다중공선성의 가능성

• 전진 : 가장 유의한 변수를 하나씩 포함

• 한번 들어온 변수는 다시 나가지 않음

• 후진 : 가장 유의하지 못한 변수를 제거

• 한번 제거된 변수는 영원히 제외

• 단계선택 : 전진 + 후진을 반복

• 유의한 변수를 선택한 후 모형이 바뀜으로 인 해 유의하지 않은 변수가 생겼는지를 다시 파

(35)

예제 자료 >

맥주 .sav

(36)

중회귀분석 예제

• 단순회귀분석에서 체중 자료 확장

multiple.sav

• 몸무게 , 키 , 신발크기

• 종속변수와 독립변수는 ?

• 분석순서

• 산점도

• 변수들간의 관계식 추정 ( 단계식 회 귀 )

• 독립변수의 유의성 검정

(37)

행렬식 산점도

(38)

출력결과

• 단계식 회귀로 키 , 신발크기가 차례로 입력

(39)

분산분석표 결과

• 모형의 유의성은 ? 유의확률 .000b

• SST=? SSE=? SSR=?

• 결정계수는 ?

(40)

출력결과의 해석

• 산점도를 보니 키 , 발크기와 몸무게 사이에 선형관계가 있 는 것으로 판단된다

• 몸무게 (Y) 와 키 (X1), 발크기 (X2) 의 회귀식을 구해보니

• Y=-146+0.726X1+0.33X2 의 관계를 갖는다

• 키와 발크기가 몸무게에 영향을 주는가를 검정하여 본 결과

• H0: B1=0 의 가설이 유의확률 0.001 으로 기각되어 키가 몸무게에 영향을 주는 것으로 판단된다

• H0: B2=0 의 가설이 유의확률 0.001 으로 기각되어 발크기가 몸무 게에 영향을 주는 것으로 판단된다

• 결정계수 (R 제곱 ) 는 0.727 으로 매우 높게 나타나서 데이 터 총변동의 73% 를 회귀선에 의해서 설명된다고 할 수 있 다 .

(41)

더미 (dummy) 변수 회귀분석

• 독립변수 중에 명목변수 포함 (0 또는 1)

• 예 > 남 vs 여 , 청년 vs 장년 , 구매 vs 비구매

• 0,1 을 코딩하여 그 값을 해석한다

• Y=b0+b1X1+b2X2 에서

• X1=0 은 여자 , X1=1 은 남자이

• Y=b0+b2X2 ( 여자 )

• Y=b0+b1+b2X2 ( 남자 )

• 남녀간에 기울기가 다른 것은 아니 고 절편사이에 b1 만큼의 차이가 있다

虚拟变量

X2 Y

Y=b0+b2X2 Y=b0+b1+b2X2

b1

b1

(42)

더미 (dummy) 변수 회귀분석

• Y=b0+b1X1+b2X2+b3X1X2 에서

• X1=0 은 여자 , X1=1 은 남자이면

• Y=b0+b2X2 ( 여자 )

• Y=(b0+b1)+(b2+b3)X2 ( 남자 )

• 남녀간에 기울기가 b3 만큼 기울기 가 다르고 절편사이에 b1 만큼의 차 이가 있다

X2 Y

Y=b0+b2X2 Y=b0+b1+(b2+b3)X2

b1

1

b2 1

b2+b3

(43)

더미 회귀분석 예제

• 자료 multiple.sav

• 키 , 몸무게 , 성별

• 종속변수와 독립변수는 ?

• 더미변수의 코딩은 ?

• 분석

• 산점도

• 회귀식

• 관계의 검정

(44)

출력결과

• 더미 변수의 포함

• 남녀간에 차이가 없는가 ?

• 차이가 있다면 절편의 차이인가 ? 기울기의 차이인가 ?

(45)
(46)

비선형회귀분석

• 산점도 결과 두변수의 관계가 선형이 아닐때

• 이차함수 , 지수함수 , 로그함수 형태

• 적당한 형태의 변환을 통해

• 결정계수값을 증가

• 해석의 어려움이 증가

• Trade off

• 자료 nonlinear.sav

(47)

출력결과

• 비선형회귀

• 직선보다는 로그함수형 태

• 선형회귀 결정계수 0.7 9

• 비선형회귀 결정계수 0.856

(48)

참조

관련 문서

학습지 효과 및 고객만족이 향후 지속적 이용의도에 미치는 영향을 검증하기 위해 회귀분석 결과 &lt;표 16&gt;과 같이 나타났다.분석결과 학습효과는 고객만족에 긍정적

초미세먼지가 노인 우울증에 미치는 영향을 평가하기 위해 개인 수준 자료 와 지역 수준 자료를 사용하여 다수준

3단계는 각각의 독립변수와 매개변수 양자에 대해 결과변수를 회귀시킨 결과이 다.3단계에서 매개변수인 팀 몰입은 모두 조직시민행동의 하위변수인

관련 요인을 통제한 상태에서 우식유병 여부와의 관련된 특성을 파악하기 위해 실시한 다중 로지스틱 회귀분석 결과,우식유병에 대한 비차비는

아래와

§ 회귀분석 (regression analysis)이란 하나의 종속변수와 하나 또 는 2개 이상의 독립변수들 간의 관련성을 규명할 수 있는 수학 적 모형을 측정된 변수들의

• 독립변수와 종속변수가 실제 인과관계가 있는데 없는 것처럼 보이게

이상점의 탐지 – 이상점은 해당 자료의 보편적인 값보다 매우 크 거나 작은 값을 의미하며, 분석결과에 영향을 미치므로 제거한 후