• 검색 결과가 없습니다.

회귀분석

N/A
N/A
Protected

Academic year: 2022

Share "회귀분석"

Copied!
48
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

회귀분석 (Regression)

(2)

Review

• 우리는 현재 ( 변수와 변수 ) 관계에 관심

관계가 있다 ? 없다 ?( 검정의 문제 )

어느정도 관계가 있는가 ?( 추정의 문제 ?)

• 다른 변수값을 예측 또는 추정한다면

수학 60 점이니까 물리는 70 점이겠다 ( 계량 => 계량 )

회귀분석

영어가 550 점이니까 불합격 하겠네 ( 계량 => 명목 )

로지스틱 회귀분석

남자니까 검은색 좋아하겠네 ( 명목 => 명목 )

로그선형모형

(3)

아버지 신장 (X)

아들의 신장 (Y)

회귀분 석의 유 래

• 아버지키가 크면 아들 키도 큰가 ?

• 아들키를 아버지키로 예측가능한가 ?

• 두 변수간에 관계식 은 ?

검정문제검정문제

추정문제추정문제

(4)

아버지 신장 (X)

아들의 신장

(Y) Y= 90+0.5X

회귀분석 결과

일차함수식으로 표현

• 90, 0.5 의 의미는 ?

절편과 기울기 (intercept, slope)

(5)

수식에서 추정과

검정 단계는

• 통계학의 데이터분석은 추정과 검정의 단계로 이루어져있다

• 독립변수 (X) 와 종속변수 (Y) 의 관계식 에서

• Y = a + b X

• 추정 : 회귀식 , 회귀계수

• 검정 : 독립변수의 영향력 (b=0?), 모형의 적합성 등

영향을 주는 변 수

영향을 받는 변 수

(6)

요 약

• 회귀분석의 정의

• 독립변수와 종속변수의 관계를 규명

• 관계식 ( 회귀식 ) 을 추정하고

• 관계 ( 영향력 ) 의 유무를 검정한다

• 회귀분석의 종류

• 단순회귀분석 : 독립변수의 수가 1

• Simple regression

• 다중회귀분석 : 독립변수의 수가 2 이상

• Multiple regression

(7)

회귀분석 적용 예

독립변수는 계량 , 명목 가능

종속변수는 계량만 가능 ( 명목일 때는 다른 분석 사용 )

독립변수 종속변수

연령 , 수입 , 학력 , 주거

연령 , 수입 , 학력 , 주거 구매성향구매성향 살균시간 , 온도

살균시간 , 온도 균의 숫자균의 숫자 가격 , 광고시간 , 점포수

가격 , 광고시간 , 점포수 매출액매출액 근무년수 , 상여금 , 교육

근무년수 , 상여금 , 교육 판매원 업적판매원 업적

(8)

종속변수

종속변수 상수

상수 회귀 계수

회귀계수 독립독립변수변수 오차 오차

입력변수

모수 : 추정할 값 확률변수 : 추정 못 함

( 단순 )

회귀분석의 모형

n i

X

Y

i

   

i

 

i

,  1 ,  ,

(9)

자료의 입력

매출액 (Y)

광고시간 (X)

97 45 95 47 94 40 92 36 90 35 85 37 83 32 76 30 73 25 71 27

α, β 를 추정한다

α, β 를

추정한다

(10)

• 잔차 (residual) 를 최소화 하는 회귀직선식을 구 함

Residual

α, β 는 어떻게

추정하는가

?

X Y ˆ   ˆ   ˆ

Y

i

i

( ˆ )

2

min Y

i

Y

i

(11)

• 최소자승법 (Ordinary Least Squares :OLS) 에 의 한 최소자승추정량 (Least Square Estimates)

회귀계수의 유 도

( ˆ )2 ( ˆ ˆ )2

min Yi Yi Yi   Xi

0 ˆ )

( ˆ ˆ

2

Yi Xi

0 ˆ )

( ˆ ˆ

2

Yi Xi

 

  2

) (

) )(

ˆ (

X X

Y Y

X X

i

i

i

X Y

ˆ   ˆ

(12)

SPSS 실습

( 광고 _ 매출

액 .sav)

(13)

독립변수와 종속변수만을 대입

(14)

그래프 출력

결과

(15)

출력 결과

22

1

. 1 509

.

ˆ 42 X

Y  

(16)

• 모형 :

• 가설 :

=> 독립변수가 종속변수에 영향을 주는 가 ?

( 절편에 관한 검정은 중요하지 않음 )

• Idea :

만약 가 0 이라면 X 의 변화가 Y 에 전혀 영향을 주지 못한다

.

회귀계수 의 검정

0 :

. 0

:

1

0

  vs H  

H

X

Y    

(17)

다시 출력결과

유의확률이 5% 보다 적으므로 효과 있다

• 즉 , 광고시간이 매출액에 영향을 준다

< 참고 > 6.7222=?

(18)

결정계수 (R 제곱 )

• 유의성 검정에서 귀무가설이 기각되더라도 이는 기울기가 0 이 아니라는 것뿐이지 추정된 회귀식이 전체자료를 잘 설명 해 주고 있다고 판단하기는 어 렵다 .

• 그래서 표본자료로부터 추정된 회귀선이 그 측정자료에 어느 정도 적합한가를 측정하는 측 도인 결정계수 (coefficient of de- termination) 가 필요하게 된다 .

• 관측값 y 의 총변동은 회귀선에 의해 설명되는 변동과 설명되지 않는 변동으로 나누어진다

• SST=SSR+SSE

• R2=SSR/SST

• R2=1 이면 회귀선으로 y 의 총변 동이 완전히 설명된다는 것을 의 미한다 . R2=0 이면 회귀선으로 x 와 y 의 관계를 전혀 설명하지 못한다는 의미

(19)

출력결과에서 결정계수는 ?

• 결정계수 =0.850

• 전체제곱합 =820.4

• 회귀제곱합 =697.004

• 결정계수 =697.004/820.4

(20)

단순회귀분석 예제

• 참고자료

자료 : 키 _ 몸무게 .sav

• 키와 몸무게 자료

종속변수와 독립변수는 ?

• 분석단계

산점도

• 관계식 ( 회귀식 ) 추정

관계여부 검정

(21)

출력결과

(22)

출력결과의 해석

• 산점도를 보니 키와 몸무게 사이에 선형관계가 있는 것으로 판단된 다

• 몸무게 (Y) 와 키 (X) 의 회귀식을 구해보니

• Y=-124.6+1.09X 의 관계를 갖는다

• 키가 몸무게에 영향을 주는가를 검정하여본 결과

• H0: B=0 의 가설이 유의확률 0.000 으로 기각되어 관계가 있는것으로 판단된다

• 결정계수 (R 제곱 ) 는 0.676 으로 매우 높게 나타나서 데이터 총변동 의 67.6% 를 회귀선에 의해서 설명된다고 할 수 있다 .

• 그런데 키가 0 이면 몸무게도 0 이 되어야 하는데…

(23)

절편없는 회귀선

(24)

중회귀분석

• 모형

• 관심

• 회귀계수의 추정

• 유의성 검정

어떤 독립변수가 종속변수를 설명하는가

• 변수선택 ( 모형의 선택 )

     

X X

k

X

k

Y

1 1 2 2

(25)

예제

• 결과

• SPSS 에 의하여 확인

• 통계분석 => 회귀분석 => 선 형

매출액

(Y) 광고시

간 (X1) 판매원 수 (X2)

97 45 130

95 47 128

94 40 135

92 36 119

90 35 124

85 37 120

83 32 117

76 30 112

73 25 115

71 27 108

광고 _ 매출액 _ 판매원 .sav

2 1

0 . 463 763

. 0

709 .

ˆ 2

X X

Y

(26)
(27)

X2 계수는 유의하지 않

X2 계수는 유의하지 않

출력 결과

X1, X2 상관계수가

높다 X1, X2 상관계수가

높다

(28)

질문 :

매출액에 판매원수 (X2) 는 영향을 주 지 않는가 ?

• X2 의 계수는 유의하지 않다 ( 유의확률 0.108)

• 그러나 중회귀에서 그것은 단순한 문제가 아님

• 다중공선성의 문제

(29)

Y 와 X2 를 단순회귀분석

하면 두 변수의 관계 매우 유의함

• 그런데도 X2, X1 을 포함하는 회귀식에

서 X2 가 의미가 없다고 나온 이유는 ?

(30)

다중공 선성

• X2 가 Y 를 설명할 부분을 X1 이 먼저 설명했기 때문

• X1 과 X2 의 상관계수가 높음

• 이런 현상을 다중공선성 (multicollinearity) 이라 한다 .

• 제거방법

• 덜 중요한 변수를 제거

• 독립변수들의 결합 ( 요인분석 , 단순 평균화 )

• 표본의 수를 많이 뽑음

(31)

다중공선성 진단

(32)

분산 팽창 인수 (VIF, Variance Inflation Factor)

• VIF 가 10 이상

공차한계가 0.1 미만이면 심각한 다중공선성 존재

공차한계는 1/VIF

(33)

중회귀분석에서 유의할 점

• 변수들간에 다중공선성이 나오지 않도록 유의

• 모형에 변수를 포함시키는 방법 고려 .

(34)

변수선택법

입력 : 모든 변수 포함

다중공선성의 가능성

• 전진 : 가장 유의한 변수를 하나씩 포함

한번 들어온 변수는 다시 나가지 않음

• 후진 : 가장 유의하지 못한 변수를 제거

한번 제거된 변수는 영원히 제외

• 단계선택 : 전진 + 후진을 반복

유의한 변수를 선택한 후 모형이 바뀜으로 인해 유의하지 않은 변수가 생겼는지를 다시 파악

(35)

예제 자료 >

주 .sav

(36)

중회귀분석 예제

• 단순회귀분석에서 체중 자료 확장

multiple.sav

• 몸무게 , 키 , 신발크기

종속변수와 독립변수는 ?

• 분석순서

• 산점도

변수들간의 관계식 추정 ( 단계식 회귀 )

독립변수의 유의성 검정

(37)

행렬식 산점도

(38)

출력 결과

단계식 회귀로 키 , 신발크기가 차례로 입력

(39)

분산분석표 결과

• 모형의 유의성은 ? 유의확률 .000

b

• SST=? SSE=? SSR=?

• 결정계수는 ?

(40)

출력결과의 해석

• 산점도를 보니 키 , 발크기와 몸무게 사이에 선형관계가 있는 것으로 판 단된다

• 몸무게 (Y) 와 키 (X1), 발크기 (X2) 의 회귀식을 구해보니

• Y=-146+0.726X1+0.33X2 의 관계를 갖는다

• 키와 발크기가 몸무게에 영향을 주는가를 검정하여 본 결과

• H0: B1=0 의 가설이 유의확률 0.001 으로 기각되어 키가 몸무게에 영향을 주는 것으 로 판단된다

• H0: B2=0 의 가설이 유의확률 0.001 으로 기각되어 발크기가 몸무게에 영향을 주는 것으로 판단된다

• 결정계수 (R 제곱 ) 는 0.727 으로 매우 높게 나타나서 데이터 총변동의 73% 를 회귀선에 의해서 설명된다고 할 수 있다 .

(41)

더미 (dummy) 변수 회귀분석

• 독립변수 중에 명목변수 포함 (0 또는 1)

• 예 > 남 vs 여 , 청년 vs 장년 , 구 매 vs 비구매

• 0,1 을 코딩하여 그 값을 해석한다

• Y=b0+b1X1+b2X2 에서

• X1=0 은 여자 , X1=1 은 남자이면

• Y=b0+b2X2 ( 여자 )

• Y=b0+b1+b2X2 ( 남자 )

남녀간에 기울기가 다른 것은 아니고 절편사이에 b1 만큼의 차이가 있다

X2 Y

Y=b0+b2X2 Y=b0+b1+b2X2

b1

b1

(42)

더미 (dummy) 변수 회귀분석

• Y=b0+b1X1+b2X2+b3X1X2 에서

• X1=0 은 여자 , X1=1 은 남자이

• Y=b0+b2X2 ( 여자 )

• Y=(b0+b1)+(b2+b3)X2 ( 남자 )

남녀간에 기울기가 b3 만큼 기울 기가 다르고 절편사이에 b1 만큼 의 차이가 있다

X2 Y

Y=b0+b2X2 Y=b0+b1+(b2+b3)X2

b1

1

b2 1

b2+b3

(43)

더미 회귀분석 예제

• 자료 multiple.sav

• 키 , 몸무게 , 성별

• 종속변수와 독립변수는 ?

• 더미변수의 코딩은 ?

• 분석

• 산점도

• 회귀식

• 관계의 검정

(44)

출력결과

더미 변수의 포함

남녀간에 차이가 없는가 ?

차이가 있다면 절편의 차이인가 ? 기울기 의 차이인가 ?

(45)
(46)

비선형회귀분석

• 산점도 결과 두변수의 관계가 선형이 아닐때

• 이차함수 , 지수함수 , 로그함수 형태

• 적당한 형태의 변환을 통해

• 결정계수값을 증가

• 해석의 어려움이 증가

• Trade of

• 자료 nonlinear.sav

(47)

출력결과

• 비선형회귀

• 직선보다는 로그 함수형태

• 선형회귀 결정계 수 0.79

• 비선형회귀 결정

계수 0.856

(48)

참조

관련 문서

대도시의 12지역에 대한 자동차의 배기가스와 대기오염과의 상관관계를 분석하기 위해, 공기 중의 일산화탄소 농도와 발암성 물질인 벤조피렌의 농도를 측정한

그러나 WLS는 다음과

연산자와 대입 연산자를 혼합하여 사용하는 복합 대입 연산자(compound assignment operator)는 다음과 같으며 비트 연산자에 대해서도 같은!.

 회귀분석: 변수와 변수 사이의 관계를 알아보기 위한 통 계적 분석방법, 독립변수의 값에 의하여 종속변수의 값을 예측하위 위함.  독립변수(independent variable):

이상점의 탐지 – 이상점은 해당 자료의 보편적인 값보다 매우 크 거나 작은 값을 의미하며, 분석결과에 영향을 미치므로 제거한 후

It is called a partial regression coefficient, a net regression coefficient, or just a regression coefficient... •

구조모델 (즉 잠재변수 간의 회귀모델)은 독립변수, 매개변수, 조 절변수, 그리고 독립변수와 조절변수의 곱으로 생성한 새로운 잠재변수(상호작용항) 간의

• 회귀계수의 크기가 각 입력변수의 단위에 의존하기 때문에 다중 회귀모형의 회귀 계수들을 서로 비교하는 것에는 문제가 된다.. 02