• 검색 결과가 없습니다.

≪ 9주차 ≫ 예측모형에 대한 평가

N/A
N/A
Protected

Academic year: 2022

Share "≪ 9주차 ≫ 예측모형에 대한 평가"

Copied!
53
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

≪ 9주차 ≫

예측모형에 대한 평가

Assessment of Predictive Model

빅데이터 분석을 위한

데이터마이닝 방법론

SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

(2)

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

(3)

Regression Analysis :

6.1.1 목표변수가 구간형인 경우(Supervised Prediction)

Obs.

1 2 3 4 5 6 7

Sex F M

F F F M

F

Age 18 25 67 43 28 53 42

Region A D D B A C A

125 35 150

45 13 38 20

120 38 147

53 15 36 21 y

p p

x b x

b x

b a

y ^ = +

1 1

+

2 2

+ L +

y ^

(4)

… 목표변수가 구간형인 경우

Regression Tree

평균 9.25 n 120

A, B, C

평균 28.6 n 310

D, E 지역

평균 23.21 n 430

<= 40

평균 37.23 n 76

> 40 연령

제품구매력 평균 22.53

n 506

y ^ =

Mean of each node

(5)

… 목표변수가 구간형인 경우

125 35 150

45 13 38 20

120 38 147

53 15 36 21

y

i

y ^

i

5 -3

3 -8 -2 2 -1

e

i

SSE /

ASE

-

1

2

n n e

n

i

=

i

= 

=

[ TSS/( 1 ) ] MSE/

1

adj

- R

2

= - n -

 ) ( 0  adj R

2

1

( SSE/n ) 2 ( 1 )

log AIC

- = n

e

+ p +

) SSE /(

MSE

-

1

2

n p p e

n

n

i

i

-

- =

= 

=

(6)

6.1.2 목표변수가 범주형인 경우(Supervised Classification)

Obs.

1 2 3 4 5 6 7

Sex F M

F F F M

F

Age 18 25 67 43 28 53 42

Region A D D B A C A

1 0 1 1 0 0 0

0.75 0.12 0.93 0.53 0.15 0.31 0.12 y P ( y = 1 )

Logistic

Regression

P(y=1)

) exp(

1

) exp(

^

2 2 1

1

2 2 1

1

p p

p p

x b x

b x

b a

x b x

b x

b a

+ +

+ +

+

+ +

+

= +

L

L

(7)

n % 나쁨 143 90.51 좋음 15 9.49 계 158 (48.92)

35세 미만

n % 나쁨 0 0.00 좋음 7 100.00 계 7 (2.17)

35세초과 연령

n % 나쁨 143 86.67 좋음 22 13.33 계 165 (51.08)

200만원이하

n % 나쁨 24 48.98 좋음 25 51.02 계 49 (15.17)

25세미만

n % 나쁨 1 0.92 좋음 108 99.08 계 109 (33.75)

25세초과 연령

n % 나쁨 25 15.82 좋음 133 84.18 계 158 (48.92)

200만원이상 월소득

신용상태

나쁨 168 52.01%

좋음 155 47.99%

계 323 (100.00)

… 목표변수가 범주형인 경우

Classification Tree

i

i

n

n

y 1 ) /

P( ^ = =

1

(8)

… 목표변수가 범주형(구간형)인 경우

)

(

1 11 1 21 2 1

1

1

f b w X w X w

p

X

p

H = + + + L +

)

(

2 12 1 22 2 2

2

2

f b w X w X w

p

X

p

H = + + + L +

) ( b

0

w

10

H

1

w

20

H

2

g

Y = + +

결합함수 활성함수

절편(bias) 연결강도

X

1

X

2

X

p

H

1

H

2

y

Neural Network

Multi-Layer Perceptron

(9)

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

(10)

6.2.1 분석사례 - 1: 구간형 목표변수

(11)

모델 비교(Model Comparison) 노드 - 결과

(12)

모델 비교(Model Comparison) 노드 - 결과: 출력

(13)

회귀(Regression) 노드 - 속성 패널과 출력 결과

회귀 노드의 속성 패널

(14)

6.2.2 분석사례 - 2: 이항형 목표변수

0.75 0.12 0.93 0.53 0.15 0.31 0.12

) 1 (

P y = 1

0 1 1 0 0 0 y

0 1 1

0.30 0.41 0.75

1 0 1 1 0 0 0

) y 50 ( 0 .

^

0 0 1

1 0 1 1 0 1 0 1 1 1

Modeling Cut-off value (Threshold) Discriminant

판별

Classification 분류

) y 25 ( 0 .

^

(15)

임계치에 따른 분류 정확도

5 0 1 4

5 5

0 1

1 0

6 4

Predicted

10

3 2 0 5

5 5

0 1

1 0

3 7

Predicted

10

오류율 (Error rate)

= (false negative + false positive)/(grand total) = (1+0)/10 = 10%

정확도 (Accuracy)

= (true negative + true positive)/(grand total) = (5+4)/10 = 90%

민감도 (Sensitivity)

= (true positive)/( total actual positive) = 4/5 = 80%

특이도 (Specificity)

= (true negative)/( total actual negative) = 5/5 = 100%

(0+2)/10 = 20%

(3+5)/10 = 80%

5/5 = 100%

3/5 = 60%

) y 50 ( 0 .

^ y 25 ^ ( 0 . )

(16)

No-Data Rule

0 44 0 106

44 106

Predicted Class

Actual Class

0 1

1 0

0 150

150

Accuracy = 106/150 = 71%

오류율, 정확도, 민감도, 특이도 등은 임계치에 따라 달라지므로, 임계치에 의존하지 않는 모형평가 도구가 필요하다.

(17)

향상도 테이블(Lift Table)

Decile 1 2 3 4 5 6 7 8 9 10

Y=1 174 110 38 14 11 10 7 10

3 4

%Captured 174/381=45.6 110/381=28.8 38/381= 9.9 14/381= 3.6 11/381= 2.8 10/381= 2.6 7/381= 1.8 10/381= 2.6 3/381= 0.7 4/381= 1.0

%Response 174/200=87.0 110/200=55.0 38/200=19.0 14/200= 7.0 11/200= 5.5 10/200= 5.0 7/200= 3.5 10/200= 5.0 3/200= 1.5 4/200= 2.0

Lift

87.0/19=4.57 55.0/19=2.89 19.0/19=1.00 7.0/19=0.36 5.5/19=0.28 5.0/19=0.28 3.5/19=0.18 5.0/19=0.26 1.5/19=0.07 2.0/19=0.10

≪ Example ≫ n = 2000, 1 = 381

Baseline = 381/2000 = 19 %

(18)

향상도 그래프(Lift Chart)

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

%Response

(19)

누적 향상도 테이블(Cumulative Lift Table)

Decile 1 2 3 4 5 6 7 8 9 10

Y=1 174 284 322 336 347 357 364 374 377 381

%Captured 174/381=45.6 284/381=74.5 322/381=84.5 336/381=88.1 347/381=91.0 357/381=93.7 364/381=95.5 374/381=98.1 377/381=98.9 381/381=100

Lift

87.0/19=4.57 71.0/19=3.73 53.6/19=2.82 42.0/19=2.21 34.7/19=1.82 29.7/19=1.56 26.0/19=1.36 23.3/19=1.23 20.9/19=1.10 19.0/19=1.00

%Response 174/ 200=87.0 284/ 400=71.0 322/ 600=53.6 336/ 800=42.0 347/1000=34.7 357/1200=29.7 364/1400=26.0 374/1600=23.3 377/1800=20.9 381/2000=19.0

(20)

누적 향상도 그래프(Cumulative Lift Chart)

Selected Cases (%) 100

80 60 40 20 0

10 20 30 40 50 60 70 80 90 100

MRR If 30% of the cases

are selected, then 53.6% will respond, cumulative lift = 282%.

(21)

바람직한 향상도 그래프

0 20 40 60 80 100

1 2 3 4 5 6 7 8 9 10

0 20 40 60 80 100

1 2 3 4 5 6 7 8 9 10

0 20 40 60 80 100

1 2 3 4 5 6 7 8 9 10

Preferable Lift Chart

(22)

분석사례 - 2를 위한 다이어그램

모델 비교 노드의 속성 패널

(23)

모델 비교(Model Comparison) 노드 - 결과

(24)

≪예≫ 최적 향상도(최고의 성능을 가지는 모형)

(25)

데이터 옵션 대화상자

(26)

최적 향상도 그래프

(27)

향상도 테이블

(28)

정오분류표(Confusion Matrix, Classification Table)

(29)

≪예≫ 민감도와 특이도

(30)

ROC(Receiver Operation Characteristic) 그래프

Sensi tivi ty

1 — Specificity

0.0 0.5 1.0

0.0

0.5

1.0

(31)

ROC(Receiver Operation Characteristic) 그래프

(32)

ROC 곡선과 향상도 그래프의 관계

매우 좋음

좋음

나쁨

ROC Lift Cumulative

Lift

(33)

모델 비교(Model Comparison) 노드 - 결과

(34)

≪예≫ 모형평가 결과의 요약

(35)

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

(36)

≪예≫ 절단값에 따른 정확도, 민감도, 특이도

(37)

임계치(Cutoff) 노드 - 결과

(38)

임계치(Cutoff) 노드 - 결과: 모델 짂단 테이블

임계치 노드의 속성 패널

(39)

컷오프(임계치) 설정 방법

User Input: 사용자 입력 임계값(Cutoff User Input) 필드에 사용자가 임계치를 설정한다.

Maximum KS Statistic: 분석용 데이터의 사전확률(prior probability)을 임계치로 설정한다.

Minimum Misclassification Cost Training Prior: 사전확률을 반영한 예 측오류 ‘FPX(1-prior)+FNXprior’가 최소가 되는 임계치를 설정한다.

Maximum True Pos Rate: 민감도(True Positive Rate)가 최대가 되는 임계치를 설정한다.

Maximum Event Precision From Training Prior: 이벤트 정밀도가 최대 가 되는 임계치를 설정한다.

Event Precision Equal Recall: 이벤트 정밀도와 민감도가 최대가 되는 임계치를 설정한다.

Maximum Cumulative Profit: 누적 이득이 최대가 되는 임계치를 설정 한다

(40)

임계치 설정에 따른 결과

(41)

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

(42)

분석사례 - 3을 위한 다이어그램

의사결정 노드의 속성 패널

(43)

6.4.1 사전확률(Prior Probability) 설정

π1, π2: 사전확률(Prior Probability)

ρ1, ρ2: 표본에서의 목표변수의 비율

사후확률(posterior probability)의 불편(unbiased) 추정치:

(44)

그래프 탐색(Graph Explore) 노드 - 결과

(45)

6.4.2 이득행렬(Profit Matrix)의 이용

(46)

기대이득의 계산

(47)

모델비교(Model Comparison) 노드 - 결과

(48)

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

(49)

기타 모형화 노드들

앙상블(Ensemble) 노드

자동신경망(AutoNeural) 노드

Dmine 회귀분석(Dmine Regression) 노드

DM 신경망(DMNeural) 노드

그래디언트 부스팅(Gradient Boosting) 노드

LAR(Least Angle Regression)s 노드

MBR(Memory-Based Reasoning) 노드

부분최소제곱법(Partial Least Squares) 노드

규칙추론(Rule Induction) 노드

SVM(Support Vector Machine) 노드

(50)

여러 가지 모형화 노드들

앙상블 노드의 속성 패널

(51)

모델비교(Model Comparison) 노드 - 결과

(52)

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

(53)

Bagging 방법을 위한 다이어그램

그룹 시작 노드의 속성 패널

참조

관련 문서

Temperature Hysteresis Inside / Outside Temperature event에 대한 hysteresis 폭을 설정 이벤트 종료레벨은 (threshold - hysteresis) 이다. 범위: 1 - 120

행사 및 부대 이벤트 운영 행사 및 부대 이벤트 운영 행사 관련 제작물 제작 및 진행 버스킹, 예술공연 운영 행사 운영.. 개발사와 투자사,

우는 PQÓ=PÕÁQÁÓ일 때이고 PQÓ의 길이가 최대가 되는 경우는

폼을 열어 레코드들이 표시될 때 발 생하며, 이 이벤트는 Current 이벤트 전에 발생하고 Open 이벤트 후에 발 생함.

– 이벤트가 발생하면, 등록되어 있던 이벤트 리스너의 메소드가 실행된다... 사용자가 버튼을 누르면,

 사건 A 가 어떠한 결과도 포함하지 않는 경우, 이러한 사상 을 공사상(null event or empty event)이라 하고

보안로그 : 유효하거나 유효하지 않은 로그온 시도, 파일의 생성/열람/삭제에 관련된 이벤트 시스템 로그 : 시스템 부팅 등 윈도우 시스템의 구성요소와

‘멀 티미디어 해상쇼’라는 취지대로 다양한 불꽃뿐만 아니라 화려한 레이져 쇼 등 을 테마음악과 함께 선보인다. 대부분 의 관람객은 백사장에서 불꽃축제를 관