≪ 9주차 ≫
예측모형에 대한 평가
Assessment of Predictive Model
빅데이터 분석을 위한
데이터마이닝 방법론
SAS Enterprise Miner 활용사례를 중심으로
최종후, 강현철
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
Regression Analysis :
6.1.1 목표변수가 구간형인 경우(Supervised Prediction)
Obs.
1 2 3 4 5 6 7
Sex F M
F F F M
F
Age 18 25 67 43 28 53 42
Region A D D B A C A
125 35 150
45 13 38 20
120 38 147
53 15 36 21 y
p p
x b x
b x
b a
y ^ = +
1 1+
2 2+ L +
y ^
… 목표변수가 구간형인 경우
Regression Tree
평균 9.25 n 120
A, B, C
평균 28.6 n 310
D, E 지역
평균 23.21 n 430
<= 40
평균 37.23 n 76
> 40 연령
제품구매력 평균 22.53
n 506
y ^ =
Mean of each node… 목표변수가 구간형인 경우
125 35 150
45 13 38 20
120 38 147
53 15 36 21
y
iy ^
i5 -3
3 -8 -2 2 -1
e
iSSE /
ASE
-
1
2
n n e
n
i
=
i=
=
[ TSS/( 1 ) ] MSE/
1
adj
- R
2= - n -
) ( 0 adj R
21
( SSE/n ) 2 ( 1 )
log AIC
- = n
e+ p +
) SSE /(
MSE
-
1
2
n p p e
n
n
i
i
-
- =
=
=
6.1.2 목표변수가 범주형인 경우(Supervised Classification)
Obs.
1 2 3 4 5 6 7
Sex F M
F F F M
F
Age 18 25 67 43 28 53 42
Region A D D B A C A
1 0 1 1 0 0 0
0.75 0.12 0.93 0.53 0.15 0.31 0.12 y P ( y = 1 )
Logistic
Regression
P(y=1)
) exp(
1
) exp(
^
2 2 1
1
2 2 1
1
p p
p p
x b x
b x
b a
x b x
b x
b a
+ +
+ +
+
+ +
+
= +
L
L
n % 나쁨 143 90.51 좋음 15 9.49 계 158 (48.92)
35세 미만
n % 나쁨 0 0.00 좋음 7 100.00 계 7 (2.17)
35세초과 연령
n % 나쁨 143 86.67 좋음 22 13.33 계 165 (51.08)
200만원이하
n % 나쁨 24 48.98 좋음 25 51.02 계 49 (15.17)
25세미만
n % 나쁨 1 0.92 좋음 108 99.08 계 109 (33.75)
25세초과 연령
n % 나쁨 25 15.82 좋음 133 84.18 계 158 (48.92)
200만원이상 월소득
신용상태
나쁨 168 52.01%
좋음 155 47.99%
계 323 (100.00)
… 목표변수가 범주형인 경우
Classification Tree
i
i
n
n
y 1 ) /
P( ^ = =
1… 목표변수가 범주형(구간형)인 경우
)
(
1 11 1 21 2 11
1
f b w X w X w
pX
pH = + + + L +
)
(
2 12 1 22 2 22
2
f b w X w X w
pX
pH = + + + L +
) ( b
0w
10H
1w
20H
2g
Y = + +
결합함수 활성함수
절편(bias) 연결강도
X
1X
2… X
pH
1H
2y
Neural NetworkMulti-Layer Perceptron
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
6.2.1 분석사례 - 1: 구간형 목표변수
모델 비교(Model Comparison) 노드 - 결과
모델 비교(Model Comparison) 노드 - 결과: 출력
회귀(Regression) 노드 - 속성 패널과 출력 결과
회귀 노드의 속성 패널
6.2.2 분석사례 - 2: 이항형 목표변수
0.75 0.12 0.93 0.53 0.15 0.31 0.12
) 1 (
P y = 1
0 1 1 0 0 0 y
0 1 1
0.30 0.41 0.75
1 0 1 1 0 0 0
) y 50 ( 0 .
^
0 0 1
1 0 1 1 0 1 0 1 1 1
Modeling Cut-off value (Threshold) Discriminant
판별
Classification 분류
) y 25 ( 0 .
^
임계치에 따른 분류 정확도
5 0 1 4
5 5
0 1
1 0
6 4
Predicted
10
3 2 0 5
5 5
0 1
1 0
3 7
Predicted
10
오류율 (Error rate)
= (false negative + false positive)/(grand total) = (1+0)/10 = 10%
정확도 (Accuracy)
= (true negative + true positive)/(grand total) = (5+4)/10 = 90%
민감도 (Sensitivity)
= (true positive)/( total actual positive) = 4/5 = 80%
특이도 (Specificity)
= (true negative)/( total actual negative) = 5/5 = 100%
(0+2)/10 = 20%
(3+5)/10 = 80%
5/5 = 100%
3/5 = 60%
) y 50 ( 0 .
^ y 25 ^ ( 0 . )
No-Data Rule
0 44 0 106
44 106
Predicted Class
Actual Class
0 1
1 0
0 150
150
Accuracy = 106/150 = 71%
오류율, 정확도, 민감도, 특이도 등은 임계치에 따라 달라지므로, 임계치에 의존하지 않는 모형평가 도구가 필요하다.
향상도 테이블(Lift Table)
Decile 1 2 3 4 5 6 7 8 9 10
Y=1 174 110 38 14 11 10 7 10
3 4
%Captured 174/381=45.6 110/381=28.8 38/381= 9.9 14/381= 3.6 11/381= 2.8 10/381= 2.6 7/381= 1.8 10/381= 2.6 3/381= 0.7 4/381= 1.0
%Response 174/200=87.0 110/200=55.0 38/200=19.0 14/200= 7.0 11/200= 5.5 10/200= 5.0 7/200= 3.5 10/200= 5.0 3/200= 1.5 4/200= 2.0
Lift
87.0/19=4.57 55.0/19=2.89 19.0/19=1.00 7.0/19=0.36 5.5/19=0.28 5.0/19=0.28 3.5/19=0.18 5.0/19=0.26 1.5/19=0.07 2.0/19=0.10
≪ Example ≫ n = 2000, 1 = 381
Baseline = 381/2000 = 19 %
향상도 그래프(Lift Chart)
0 10 20 30 40 50 60 70 80 90 100
1 2 3 4 5 6 7 8 9 10
%Response
누적 향상도 테이블(Cumulative Lift Table)
Decile 1 2 3 4 5 6 7 8 9 10
Y=1 174 284 322 336 347 357 364 374 377 381
%Captured 174/381=45.6 284/381=74.5 322/381=84.5 336/381=88.1 347/381=91.0 357/381=93.7 364/381=95.5 374/381=98.1 377/381=98.9 381/381=100
Lift
87.0/19=4.57 71.0/19=3.73 53.6/19=2.82 42.0/19=2.21 34.7/19=1.82 29.7/19=1.56 26.0/19=1.36 23.3/19=1.23 20.9/19=1.10 19.0/19=1.00
%Response 174/ 200=87.0 284/ 400=71.0 322/ 600=53.6 336/ 800=42.0 347/1000=34.7 357/1200=29.7 364/1400=26.0 374/1600=23.3 377/1800=20.9 381/2000=19.0
누적 향상도 그래프(Cumulative Lift Chart)
Selected Cases (%) 100
80 60 40 20 0
10 20 30 40 50 60 70 80 90 100
MRR If 30% of the cases
are selected, then 53.6% will respond, cumulative lift = 282%.
바람직한 향상도 그래프
0 20 40 60 80 100
1 2 3 4 5 6 7 8 9 10
0 20 40 60 80 100
1 2 3 4 5 6 7 8 9 10
0 20 40 60 80 100
1 2 3 4 5 6 7 8 9 10
Preferable Lift Chart
분석사례 - 2를 위한 다이어그램
모델 비교 노드의 속성 패널
모델 비교(Model Comparison) 노드 - 결과
≪예≫ 최적 향상도(최고의 성능을 가지는 모형)
데이터 옵션 대화상자
최적 향상도 그래프
향상도 테이블
정오분류표(Confusion Matrix, Classification Table)
≪예≫ 민감도와 특이도
ROC(Receiver Operation Characteristic) 그래프
Sensi tivi ty
1 — Specificity
0.0 0.5 1.0
0.0
0.5
1.0
ROC(Receiver Operation Characteristic) 그래프
ROC 곡선과 향상도 그래프의 관계
매우 좋음
좋음
나쁨
ROC Lift Cumulative
Lift
모델 비교(Model Comparison) 노드 - 결과
≪예≫ 모형평가 결과의 요약
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
≪예≫ 절단값에 따른 정확도, 민감도, 특이도
임계치(Cutoff) 노드 - 결과
임계치(Cutoff) 노드 - 결과: 모델 짂단 테이블
임계치 노드의 속성 패널
컷오프(임계치) 설정 방법
User Input: 사용자 입력 임계값(Cutoff User Input) 필드에 사용자가 임계치를 설정한다.
Maximum KS Statistic: 분석용 데이터의 사전확률(prior probability)을 임계치로 설정한다.
Minimum Misclassification Cost Training Prior: 사전확률을 반영한 예 측오류 ‘FPX(1-prior)+FNXprior’가 최소가 되는 임계치를 설정한다.
Maximum True Pos Rate: 민감도(True Positive Rate)가 최대가 되는 임계치를 설정한다.
Maximum Event Precision From Training Prior: 이벤트 정밀도가 최대 가 되는 임계치를 설정한다.
Event Precision Equal Recall: 이벤트 정밀도와 민감도가 최대가 되는 임계치를 설정한다.
Maximum Cumulative Profit: 누적 이득이 최대가 되는 임계치를 설정 한다
임계치 설정에 따른 결과
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
분석사례 - 3을 위한 다이어그램
의사결정 노드의 속성 패널
6.4.1 사전확률(Prior Probability) 설정
π1, π2: 사전확률(Prior Probability)
ρ1, ρ2: 표본에서의 목표변수의 비율
사후확률(posterior probability)의 불편(unbiased) 추정치:
그래프 탐색(Graph Explore) 노드 - 결과
6.4.2 이득행렬(Profit Matrix)의 이용
기대이득의 계산
모델비교(Model Comparison) 노드 - 결과
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
기타 모형화 노드들
앙상블(Ensemble) 노드
자동신경망(AutoNeural) 노드
Dmine 회귀분석(Dmine Regression) 노드
DM 신경망(DMNeural) 노드
그래디언트 부스팅(Gradient Boosting) 노드
LAR(Least Angle Regression)s 노드
MBR(Memory-Based Reasoning) 노드
부분최소제곱법(Partial Least Squares) 노드
규칙추론(Rule Induction) 노드
SVM(Support Vector Machine) 노드
여러 가지 모형화 노드들
앙상블 노드의 속성 패널
모델비교(Model Comparison) 노드 - 결과
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
Bagging 방법을 위한 다이어그램
그룹 시작 노드의 속성 패널