제 4장 회귀분석
Regression Analysis
데이터 마이닝 기법 분류
지도예측
(Supervised Prediction) 입력변수, 목표변수가 존재
입력변수로부터 목표 값을 예측하는 모형 개발이 목적
• Binary Classirier : 이항 분류
• Neural Network : 신경망 모형
• Decision Tree : 의사결정나무
– C5.0, CART, QUEST, CHAID
• Regression : 회귀분석
• Logistic : 로지스틱 회귀분석
• Discriminant : 판별분석
자율예측
(Unsupervised Prediction)
목표변수가 명확히 규정되지 않음 데이터에 존재하는 여러 형태의 특징을 찾는 것이 목적
• K-Means : K-평균 군집화
• Two Step : 2단계 군집화
• Time Series : 시계열 분석
• Apriori : 연관성 규칙
• PCA / Factor : 주성분 / 인자분석
INDEX
4.1 선형 회귀분석
4.2 로지스틱 회귀분석
4.3 회귀분석의 특징과 제약
4.4 분석사례 – 1: 선형 회귀분석
4.5 분석사례 – 2: 로지스틱 회귀분석
4.6 분석사례 – 3: 신용평점표 작성
4.1 선형 회귀분석
회귀분석 : 목표변수가 다른 변수(입력변수)들에 의해서 어떻게 설명(explanation) 또 는 예측(prediction)되는지를 알아보기 위해, 자료를 적절한 함수식으로 표현하여 분 석하는 통계적 데이터분석 기법
회귀분석의 형태
• 선형(linear) 회귀분석 : 선형 방정식에 의해서 관계를 표현하는 것
• 비선형(nonlinear) 회귀분석 : 비선형 방정식에 의해서 표현하는 것
• 단순(simple) 회귀분석 : 입력변수가 하나인 경우
• 다중(multiple) 회귀분석 : 입력변수가 여러 개인 경우
예약대수가 증가하면 판매대수도 증가 한다는 것을 알 수 있다. 따라서 일차 방정식의 형태로 두 변수의 관계를 표 현하는 것이 가능
-> 선형 회귀분석 (y=a+bx)
4.1.1 단순 회귀모형
모수의 추정
: 목표변수 y를 입력변수 x의 일차식으로 설명하려는 것
• α, β – 모수(추정되어야 할 회귀계수)
• ε – 오차항(ε~N(0, σ2))
• 최소제곱법 : 오차들의 제곱합이 최소가 되도록 회귀계수를 추정하는 방법
• α와 β의 최소제곱추정치는 오차제곱합을 최소화하는 것
x
y
ni
i i
n i
i
y x
1
2 1
) (
2
• 회귀계수 α와 β의 최소제곱추정치를 각각 a와 b, 목표변수에 대한 예측값을 이라 하면
x b y
a
x x
y y
x x
b
n i
n i
i i
i
1 1
)
2( / ) )(
( y ˆ a bx
y ˆ
추정된 회귀모형식
회귀계수에 대한 해석과 검정
선형 회귀모형에서는 입력변수 x가 1단위 증가할 때 목표변수 y가 변화하 는 양을 나타내는 회귀계수 β에 가장 큰 관심
• 회귀계수가 양(+)의 값으로 추정 -> x가 증가하면 y가 증가
• 회귀계수가 음(-)의 값으로 추정 -> x가 증가하면 y가 감소
적합된 회귀직선이 자료에 잘 들어맞는지 가설 검정을 통해 점검
① 가설 : H0 : β = 0 , H1 : β ≠ 0
② 검정통계량 :
) .(
. e b s
t b
Variable DF Parameter
Estimate Standard
Error T for H
0:
Parameter=0 Prob >|T|
INTERCEP 1 9.736154 6.62064516 1.471 0.1796 X 1 1.440769 0.20044164 7.188 0.0001 t-통계량에 대한 p-값이 0.0001로서 일반적인 유의수준 보다 작기 때문에 회귀계수의 기울기는 통계적으로 유의함을 알 수 있다.
즉, 입력변수인 예약대수는 목표변수인 판매대수를 예측하는데 도움을 준다고 결론지 을 수 있다.
4.1.2 다중 회귀모형
목표변수 y에 대해서 p개의 입력변수 x1, x2, … , xp가 있을 때,
x x p x p
y
1 1 2 2
• α, β1, β2, … , βp : 추정되어야 할 (p+1)개의 회귀계수
• ε는 N(0, σ2)를 갖는 오차항
• 회귀계수들의 추정치 a, b1, b2, … , bp는 오차제곱합을 최소로 하는 최소제곱법에 의해서 수식화
• 각 회귀계수들에 대한 검정도 단순 선형 회귀모형에서와 유사하게 t- 통계량을 이용하여 수행
분산분석표와 회귀식에 대한 검정
SSE SSR
TSS
y y
y y
y
y
ni
i n
i
i n
i
i
12 1
2 2
1
ˆ ) (
ˆ ) ( )
(
TSS : 전체제곱합SSR : 회귀제곱합 SSE : 잔차제곱합
요인 자유도 제곱합 평균제곱합 F-통계량
회귀 p SSR MSR=SSR/p F=MSR/MSE 잔차 n-p-1 SSE MSE=SSE/(n-p-1)
전체 n-1 TSS
p개의 독립변수 x1, x2, … , xp가 종속변수 y를 설명하는데 있어서 통계적 으로 유의하게 기여하는지를 검정
① 가설 : H0 : β1 = β2 = … = βp = 0
② 검정통계량 :
가정된 회귀모형이 자료에 얼마나 잘 적합하는지 검정
) 1 /(
/
SSE n p
p SSR MSE
F MSR
결정계수(R-Square)
• 회귀식의 적합도를 측정하는 한가지 측도
• 전체제곱합 중에서 회귀제곱합이 차지하는 비율, 즉 총 변이를 회귀식이 얼마나 설명하는가를 나타냄
TSS SSE TSS
R
2 SSR 1
• 1에 가까울수록 추정된 회귀식이 자료를 잘 설명하고 있다고 할 수 있다. (0≤R2≤1)
• 단순 회귀분석의 경우 결정계수는 독립변수 x와 종속변수 y의 상관계수의 제곱과 같다.
F-통계량에 대한 p-값이 0.0001로서 6 개의 입력변수가 목표변수를 설명하는 데 통계적으로 유의하게 기여하고 있 음. 결정계수는 0.8487로서 목표변수 의 변이 중 약 84.9%가 입력변수들에 의한 회귀식으로 설명되었음. 유의수 준을 0.05로 하는 경우, 6개의 입력변 수 중에서 4개의 변수들은(RUNTIME, AGE, RUNPULSE, MAXPULSE) 목표변 수를 설명하는데 유의하게 기여.
표준화 회귀계수(Standardized Coefficient)
입력변수의 선택
• 회귀계수의 크기가 각 입력변수의 단위에 의존하기 때문에 다중 회귀모형의 회귀 계수들을 서로 비교하는 것에는 문제가 된다. -> 표준화 회귀계수 사용
i i i
i
s
x z x
• 표준화된 변수들을 이용하여 얻은 회귀계수로서, 입력변수들의 상대적인 영향력을 비교하기 위해서 사용.
• 전진선택법 : 입력변수를 각 변수의 기여도에 따라서 하나씩 추가하면서 선택
• 후진소거법 : 모든 변수를 포함하는 완전모형으로부터 시작하여 불필요한 변수를 하나씩 제거해 가는 방법
• 단계적 방법 : 전진선택법에 후진소거법을 결합한 것, 매 단계마다 선택과 제거를 반복하면서 중요한 변수를 찾아내는 방법
• 모든 가능한 회귀 : 가능한 모든 축소모형을 고려하여 가장 좋은 모형을 찾아내는 방법
4.2 로지스틱 회귀분석
4.2.1 로지스틱 단순 회귀모형
: 목표변수가 이항형 또는 다항형인 경우에 사용
x x y
p
x y
p
)
| 1 (
1
)
| 1 log (
예) 월수입 x를 입력변수, 어떤 상품에 대한 구입여부(1=구입, 0=구입하지 않 음) y를 목표변수로 하여 분석하는 경우 -> 단순선형 회귀식 y=ax+b를 고려 하는 것은 문제
① 목표변수 y의 관측값은 연속형이지만 예측값의 유형은 이항형이다.
② 목표변수 y에 대한 확률분포의 가정이 다르다.
-> 이항형 : 베르누이, 연속형 : 정규
∴ 로지스틱 회귀모형은 목표변수가 이항형일 때 선형 회귀모형의 단점을 극 복하기 위해 확률에 대한 로짓변환을 고려하여 모형화
4.2 로지스틱 회귀분석(Logistic Regression Anaysis)-
로지스틱 함수 탄생배경• 선형회귀모형의 이러한 단점을 극복하기 위해 확률에 대한 로짓변환 (logit transformation)을 고려한다.
bx y a
bx y y a
y
bx a
y y
bx a
y bx
a y
bx a
bx a
y y
bx a
bx a
y
x bx y
a bx y a
x y
bx a
y
x y
bx a
y
log 1 )
1 exp(
) exp(
) 1
(
) exp(
) exp(
) exp(
) exp(
) exp(
)) exp(
1 (
) 1 0
, 1 0
) ( exp(
1
) exp(
) 0
, 1
, 0 (
) exp(
) ,
1
,
0
(
오즈비(Odds Ratio)
4.2.2 로지스틱 회귀분석
• 다중 로지스틱 회귀모형
p p p
p
x x
x x
y P
x x
y
P
...
) ,...,
| 1 (
1
) ,...,
| 1
log (
1 11 1
) ...
exp(
1
) ...
) exp(
,...,
| 1 ˆ (
1 1
1 1 1
p p
p p
p
a b x b x
x b x
b x a
x y
P
• 사후확률 : 추정된 사후확률은 0과 1사이의 값을 가지게 되므로 적절한 절단값을 정하여 이 값을 기준으로 개체를 분류
) ] exp(
) ( exp[
] )
1 (
exp[
1 1
1 1
i p
p i
i
p p i
i
x x
x
x x
Ratio x
Odds
• 1보다 작다(계수 βi가 음의 값) -> 입력변수 xi가 감소방향으로 영향을 미침
• 1보다 크다(계수 βi가 양의 값) -> 입력변수 xi가 증가방향으로 영향을 미침
02 로지스틱 회귀분석
목표변수가 이항형 또는 다항형으로 나타나는 경우
4.3 회귀분석의 특징과 제약
•
실제성과 친밀성 : 선형회귀모형은 가장 널리 사용되고 있는 통계적 방법 중의 하나•
해석상의 편리 : 회귀계수나 오즈비와 같은 많은 유용한 정보를 제공•
부적절하거나 불필요한 입력변수 : 가능한 많은 입력변수를 분석에 포함 시키는 것이 예측을 위한 합리적인 전략일 수 있으나 부적절하거나 관련 성이 없는 입력변수를 포함시키는 것은 모형의 일반성을 떨어뜨림 -> 사 전탐색을 통해 이런 단점을 극복• 비선형성 : 변수들 관계가 비선형성을 가지는 경우 예측의 유용성 측면에 서 한계
• 교호작용의 결여 : 회귀모형은 각 입력변수의 영향이 다른 입력변수의 종 속되어 있지 않다고 가정 -> 유용한 교호작용을 탐색하는 것이 어려움
04 분석사례-1 선형회귀분석 (Housing)
변수 내용 측도
CRIM 범죄율 Interval
ZN 주택용 부지의 비율 Interval
INDUS 중대형 버스의 비율 Interval CHAS 강에 인접해 있는지의 여부 Binary
NOX 산화질소의 농도 Interval
RM 방의 평균개수 Interval
AGE 1940년 이전의 주택비율 Interval DIS 근무중심까지의 가중거리 Interval RAD 주요 도로까지의 접근성 Interval
TAX 세율 Interval
PTRATIO 초중등학교 교사의 비율 Interval
B 흑인비율 interval
LSTAT 중하류층의 비율 Interval
MEDV 평균 주택가격($1000) Interval
N=506
04 분석사례2 – 로지스틱 회귀분석 (Buytest)
변수 내용 변수의 내용
고객번호 ID 고객번호
인구속성 AGE 나이
INCOME 연수입(단위:천달러) MARRIED 1: 결혼 2: 미혼 SEX F: 여자 M: 남자
COA6 6개월 간의 주소변경 여부 OWNHOME 집의 소유여부
지역속성 LOC 거주지
CLIMATE 거주지의 기온
거래회수 BUY6 최근 6개월 간의 구입회수
: :
반응 C1-C7 DM에 의한 품목별 구입액
N=10000