• 검색 결과가 없습니다.

목차

N/A
N/A
Protected

Academic year: 2022

Share "목차"

Copied!
33
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

비즈니스 인텔리전스 를 위한

데이터마이닝

5장 분류 및 예측성능의 평가

(2)

 5.1 개요

 5.2 분류모형의 성과평가

 5.3 예측모형의 성과평가

목차

(3)

 지도학습의 출력변수인 집단(분류) 또는 연속형 변수(값)에 대한 예측을 중심으로 다룬다.

 분류 또는 예측모형의 유용성을 판단하고 상이 한 모형들을 서로 비교 평가하는 방법을 다룬다.

5.1 개요

(4)

 분류 정확도(Accuracy Measures)

 오분류란 관찰치가 어느 한 집단에 속하지만, 모형은 그 관찰치를 다른 집단에 소속된 관찰치로 분류하는 것을 말한다.

 ‘오분류 오차(misclassification error)의 확률’은 분류 모형의 성과를 판단하는 기본적인 기준이다.

5.2 분류모형의 성과평가

(5)

분류모형은 모든 것을 가장 우세한 집단에 속하는 것으로 분류하는 단순규 칙(naïve rule)보다는 최소한 나은 분류를 해야 한다.

실제로, 대부분의 분류정확도는 정오분류표(confusion matrix)로 불리우는 분류행렬표(classification matrix)로 측정된다. 이 행렬표는 분류모형이 특 정 데이터 집합에 대해 수행한 정분류와 오분류의 요약정보를 보여주며, 정 오분류표의 행과 열은 각각 실제집단과 예측집단과 대응된다.

5.2 분류모형의 성과평가(계속)

분류 정오분류표

예측 집단

1 0

실제 집단 1 n1,1 = 201 n1,0 = 85 0 n0,1 = 25 n0,0 = 2,689

(6)

추정 오분류율(estimated misclassification rate) 또는 전체 오차율 (Overall error rate)

오분류 대신에 정분류를 봄으로써 정확도를 측정할 수 있다. 분류모 형의 전체 정확도(Overall accuracy)는 다음과 같이 추정된다.

0,1 1,0

n n

err n

 

0,0 1,1

1 n n

accuracy err

n

  

5.2 분류모형의 성과평가(계속)

(7)

데이터마이닝 알고리즘은 두 단계에 걸쳐 사례를 분류한다.

집단 1에 속할 확률을 추정한 다음, 이 확률값과 분류기준값(cut-off value)을 서 로 비교한다.

확률값이 분류기준값보다 큰 경우 그 사례는 집단 1에 속하는 것으로 분류하고, 그렇지 않다면 집단 0으로 분류한다. 세 개 이상의 집단인 경우의 일반적인 규칙 은 그 사례가 가장 높은 확률을 갖는 집단에 해당 사례를 할당한다.

두 집단을 분류하는 모형의 기본 분류기준값은 0.5이다.

따라서, 한 레코드가 집단 1에 속할 확률이 0.5보다 크다면, 그 레코드는 집단 1 에 속하는 것으로 분류된다. 추정된 확률이 0.5보다 작다면 집단 0으로 분류된다 . 그러나, 0.5보다 크거나 작은 값으로 분류기준값을 사용할 수 있다.

분류기준값을 0.5보다 크게 하든 작게 하든 오분류비용은 양쪽 모두에서 증가하 게 된다.

그러나, 0.5와는 다른 분류기준값을 사용할 경우 오분류율이 증가함에도 불 구하고 이러한 분류기준값을 사용하는 이유는

집단 0보다는 집단1을 정확하게 분류하는 것이 더 중요하기 때문에 집단 0에 대 한 오분류가 증가하더라도 이를 허용하려고 한다는 것이다. 또는 이와 반대의 경 우도 그러하다. 다시 말해서 오분류비용이 비대칭적일 경우에는 0.5와 다른 분류 기준값을 사용하여야 한다.

분류기준값(Cutoff)

(8)

분류기준값(Cutoff)(계속)

 분류기준값이 0.5/0.25/0.75일 때,

 오분류율은 3/24, 5/24, 6/24

(9)

분류기준값(Cutoff)(계속)

<그림 5.4> 1차원 테이블을 도표화 시킨 결과:

분류기준값의 함수로서 정확도와 총오차

(10)

C1 집단을 정확하게 예측하는 것이 C0 집단을 예측하는 것보다 더 중요한 경우로서 두 집단이 서로 비대칭적인 중요도를 갖는다고 가정하자. 일례로는 기업의 재무상황(

파산/지급능력이 있음)을 예측하는 경우이다. 이 경우에는 파산가능성이 있는 기업을 정확하게 예측하는 것이 지급능력이 있는 기업을 정확하게 예측하는 것보다 더 중요 하다.

대표적인 정확도 측정치에는 다음과 같은 측정치가 있다.

(1) 분류모형의 민감도(Sensitivity)는 주요 집단의 소속 레코드를 정확하게 판별하는 능력을 말 한다. 이 값은 실제 C1 집단을 C1 집단으로 정확하게 분류할 확률로서 로 측정되며, 진양성률(true positive rate)로도 불리운다.

(2) 분류모형의 특이도(Specificity)는 C0집단의 소속자료로 정확하게 판별하는 능력을 말한다.

이 지표는 실제 C0 집단을 C0 집단으로 정확하게 분류할 확률로서 로 측 정되며, 진음성률(true negative rate)로도 불리운다.

(3) 가짜양성률(false positive rate)은 n0,1/(n0,1 + n1,1) 이다. 이 지표는 C0을 C1으로 잘못 분류 한 레코드의 비율을 말한다. 즉 이 비율은 모형에 의해서 C1로 분류된 레코드 중에서 실제 C0 집단을 C1로 잘못 분류한 레코드의 비율을 의미한다.

(4) 가짜음성률(false negative rate)은 n1,0/(n0,0 + n1,0) 이다. 이 지표는 C1를 C0으로 잘못 분 류한 레코드의 비율을 말한다. 즉 이 비율은 모형에 의해서 C0로 분류된 레코드 중에서 실제 C1 집단을 C0으로 잘못 분류한 레코드의 비율을 사용한다.

집단의 중요도가 불균등한 경우의 성과 평가

1 , 0 0 , 0

0 , 0

n n

n

1 , 1 0 , 1

1 , 1

n n

n

(11)

관찰치가 목표집단에 속하는지를 판별하는 분류모형의 성능을 평가 하기 위해서 매우 유용하게 사용되는 그래프 분석방법으로는 리프트 도표(lift chart)가 있다.

분류모형이 각 집단에 속할 확률을 계산하고 단지 C1 또는 C0의 두 집단으로 분류하지 않을 경우 이에 적합한 매우 유용한 분석도구로 는 리프트 곡선(lift curve)이 있다. 이 곡선은 이득 곡선(gain curve) 또는 이득 도표(gain chart)로도 불리운다.

이 리프트 곡선은 직접 마케팅에서 주로 사용되는 기법이다. 리프트 곡선을 고려한 한 가지 유용한 방법은 각각의 사례에 응답확률점수 를 제공함으로써 우편광고물에 가장 응답할 가능성이 높은 사람을 판별해 주는 데이터마이닝 모형을 적용하는 것이다.

리프트 곡선은 상대적으로 사례를 적게 선택하고 상대적으로 높은 응답자의 비율을 찾음으로써 가장 좋은 성과를 보이는 부분을 효과 적으로 찾고자 할 때 유용하다. 리프트 곡선을 작성하기 위해 필요한 입력자료는 각 사례에 대해서 집단에 속할 확률을 추정하여 이를 점 수형태로 추가 반영한 검증용 데이터 집합이다.

리프트 도표(Lift Charts)

(12)

리프트 도표(Lift Charts)(계속)

X Y

(13)

리프트 도표(Lift Charts)(계속)

<그림 5.8> 십분위수의 리프트 도표

(14)

리프트 도표(Lift Charts)(계속)

WEKA에서의 리프트 도표

(15)

ROC(Receiver operating characteristic) 곡선은 리프트 곡선과는 약간 다 르지만, 리프트 곡선과 동일한 정보를 포함하는 곡선으로서 데이터마이닝을 적용할 때 많이 사용된다.

이 곡선의 y축은 리프트 곡선과 비슷한 변수인 민감도(Sensitivity) 또는 진 양성률(true positive rate)을 나타내며, x축의 변수는 분류기준값에 따라서 계산된 특이도(Specificity) 또는 진음성률(true negatives rate: 중요하지 않 은 집단(집단0)의 레코드 중에서 정확하게 분류된 레코드의 비율)을 이용하 여 계산된 (1 – 특이도)의 값으로 나타낸다.

ROC(Receiver operating characteristic) 곡선

=민감도

=1- 특이도

(16)

ROC(Receiver operating characteristic) 곡선(계속)

(17)

ROC(Receiver operating characteristic) 곡선(계속)

WEKA에서의 ROC Curve

(18)

간혹 어떤 사례를 특정 집단으로 잘못 분류하는 오류는 기타 집단으로 잘못 분류하는 것보다 더 중요할 때가 있다.

예를 들어 한 가구가 기업의 판매 제안에 반응하는 집단에 속함에도 불구하고 반 응하지 않는 집단으로 잘못 분류하는 것은 반대의 경우보다 더 큰 기회비용을 초 래한다. 전자의 경우에는 아마도 수십 또는 수백 달러의 가치가 있는 매출기회를 놓치게 되고, 후자의 경우에는 구매하지 않을 사람들에게 단지 우편 발송비용만 부담하게 된다.

이러한 상황에서 평가척도로서 오분류율을 그대로 사용한다면 잘못된 결과를 초 래할 수 있다.

비대칭 오분류비용

예측 집단0 예측 집단1

실제 집단0 970 20

실제 집단1 2 8

이득 예측 집단0 예측 집단1

실제 집단0 0 - $ 20

실제 집단1 0 $ 80

비용 예측 집단0 예측 집단1

실제 집단0 0 $ 20

이익행렬표

비용행렬표

(19)

비용을 포함하고 있는 일반적인 성과측정치는 관찰치 단위당 표본의 평균 오분류비용이다.

집단 0에 속하는 관찰치를 집단 1에 속하는 관찰치로 잘못 분류하는 비용을 q0 로 표기하고 집단 1에 속하는 관찰치를 집단 0에 속하는 관찰치로 잘못 분류하는 비용을 q1로 표기하기로 하자.

이때 표본의 평균 오분류비용은 다음과 같이 계산된다(

n

i,j

C

i집단에 속하는 자 료를

C

j 집단에 속하는 자료로 분류하는 사례들의 개수를 표시함).

비대칭 오분류비용(계속)

0 0,1 1 1,0

q n q n n

0 0,1 1 1,0 0,1 0,0 0,1 1,0 1,0 1,1

0 1

0,0 0,1 1,0 1,1

q n q n n n n n n n

q q

n n n n n n n

  

   

 

(20)

기대 오분류비용

표본 데이터에서 집단 0과 집단 1의 비율이 미래에 기대되는 집단 0과 집단 1의 비율과 비슷하다면 위의 표현식은 미래 오분류비용에 대한 적합한 추정치라고 볼 수 있다. 만약 층화 표본추출을 한다면 하나의 집단이 과대표본추출되었을 때 각 집단에 속하는 관찰치의 비율에 관한 외부 또는 사전 정보를 사용할 수 있다.

이러한 정보는 와 으로 표기되며 위의 비용산식은 이러한 정보를 반 영하여 다음과 같이 표시된다.

비대칭 오분류비용(계속)

   

0,1 1,0

0 0 1 1

0,0 0,1 1,0 1,1

n n

p C q p C q

n nn n

 

 0

p C p C 1

(21)

1) 세 개 이상의 집단으로 일반화

두 집단을 분류하는 모형에 대한 모든 내용은 곧장 세 개 이상의 집단 분류로 확장될 수 있다.

m개의 집단을 C0, C1, C2, …, Cm-1으로 가정할 경우 정오분 류표는 m개의 행과 m개의 열로 구성된다. 대각선의 칸에 속하는 오분류비용은 물론 항상 0이다.

현재 m개로 구성된 다양한 집단의 사전확률을 통합하는 방법은 두 집단의 경우에 마찬가지 방식으로 이루어진다.

그러나 오분류비용을 평가하는 것은 훨씬 더 복잡하다. m개의 집단을 갖는 사례는 m(m-1)만큼의 오분류 유형이 나타난다. 따 라서 오분류비용의 행렬을 작성하는 것은 매우 복잡해진다.

비대칭 오분류비용(계속)

(22)

2) 비용과 이익을 통합하는 리프트 도표

정분류와 오분류의 이익과 비용이 알려져 있거나 추정될 수 있다면 이를 반영한 리프 트 도표는 유용한 분석도구이다. 이전의 리프트 도표처럼 각 레코드가 특정 집단에 속 할 확률을 각 레코드에 할당하는 분류모형이 필요하다. 그 다음에는 다음과 같은 절차 가 진행된다.

1. 예측된 성공확률값의 크기 순서대로 레코드를 분류한다. (성공 = 관심 집단에 속하는 레코드)

2. 각 레코드에 대해 실제 결과값과 연관된 비용(이익)을 기록한다.

3. 가장 높은 확률을 가진 레코드(첫행의 레코드)의 비용(이익)값은 리프트 도표의 첫번째 y 좌표 값에 해당하며 이때 x 좌표 값은 1이다.

4. 마찬가지로 다음 레코드에 대해서도 실제 결과값과 연관된 비용(이익)을 다시 계산한 다. 이전 레코드의 비용(이익)에 다음 레코드의 비용(이익)을 더한다. 이 합계값은 리 프트 곡선의 두번째 y 좌표 값에 해당하며, 이때 x 좌표 값은 2이다.

5. 모든 레코드를 분석할 때까지 4번째 단계를 반복 수행한 후, 모든 점들을 연결하면 이 것이 리프트 곡선이 된다.

6. 참조선은 첫번째(시작) 점에서 y 좌표값이 총 순이익이고 x 좌표값이 N(N= 레코드의 총수)인 점까지를 이은 직선을 뜻한다.

비대칭 오분류비용(계속)

(23)

2) 비용과 이익을 통합하는 리프트 도표

비용과 이익을 통합하는 참조선은 전체 데이터 집합의 순가치가 음수라고 한다면 음(-)의 기울기를 갖게 된다. 예를 들어 한 사람에게 광고물을 보내는데 드는 비용이 $0.65이고 응 답자의 가치는 $25이며 전체 반응률이 2%라고 한다면 10,000명에게 광고물을 발송하여 얻는 기대순가치는 (0.02*$25*10,000)-($0.65*10,000) = $5,000 - $6,500 = - $1,500 이다. 따라서, 리프트 곡선의 가장 오른쪽(x = 10,000)에 위치한 y값은 -1,500이며 시작점 부터의 참조선의 기울기는 음수가 된다. <그림 5.9>에서 최상의 점(좌표)는 리프트 곡선이 최고점에 있을 때이다.

비대칭 오분류비용(계속)

(24)

과대표본추출(Oversampling)과 비대칭 비용

과대표본추출은 오분류비용을 모형의 학습과정에 포함시키는 하 나의 방법이다.

균등한 표본추출

분류문제에서 매우 낮은 반응률에 직면하게 될 때 실제 전문가들 은 대체로 상대적으로 효과적이면서 편리한 접근방법으로서 응 답자와 비응답자의 비율을 균등하게 표본추출한다. 어떤 접근방 법을 사용하든지간에 모형의 성과를 평가하고 예측하려고 할 때 에는 다음의 방법중에서 하나를 사용하여 과대표본추출을 조정 할 필요가 있다.

1. 과대표본추출없이 단순 무작위 표본추출에 의해서 선택된 평가용 집 합에 모형을 적용하여 그 결과를 평가한다.

2. 과대표본추출된 평가용 집합에 모형을 적용하여 그 결과를 평가하고 과대표본추출로 인한 효과를 제거하기 위해 모형의 결과의 가중치를 재 조정한다.

과대표본추출(Oversampling)과 비대칭

비용

(25)

과대표본추출(Oversampling)과 비대칭

비용(계속)

(26)

과대표본추출(Oversampling)과 비대칭 비용(계속)

<오분류비용을 적용하는 방법>

오분류비용의 비율과 동일한 비

율로 과대표본추출함.

(27)

과대표본추출(Oversampling)과 비대칭 비용(계속)

 1) 학습용 표본을 이용한 과대표본추출

 2) 비과대표본추출된 평가용 집합을 이용한 모형 의 성과 평가

 3) 평가용 집합만이 과대표본추출된 경우의 모형

의 성과 평가

(28)

과대표본추출(Oversampling)과 비대칭 비용(계속)

 학습용 표본을 이용한 과대표본추출

1.

응답과 비응답 데이터를 두 개의 별개 집단(층)으로 구분한다.

2.

각 층에 대해서 학습용 집합에 사용될 레코드들을 무작위로 선 택한다. 일반적으로 학습용 집합으로 (희소한) 응답자의 절반을 선택한 후 이와 동일한 개수의 비응답자를 선택한다.

3.

검증용 집합에는 나머지 절반의 응답자들을 선택한다.

4.

검증용 집합에 사용될 비응답자를 응답자와 비응답자의 원래 비율(50:50)을 맞출 수 있는 개수만큼 무작위로 선택한다.

5.

평가용 집합이 필요하다면 검증용 집합에서 무작위로 추출한다

.

(29)

과대표본추출(Oversampling)과 비대칭 비용(계속)

예측집단 0 예측집단 1 총계 실제집단 0 390 110 500 실제집단 1 80 420 500 총계 470 530 1,000

과대표본추출의 정오분류표 (검증용 집합)

예측집단 0 예측집단 1 총계 실제집단 0 19,110 5,390 24,500 실제집단 1 80 410 500

총계 19,190 5,810 25,000

가중치가 조정된 정오분류표

I. 과대표본추출에 대한 정오분류표(confusion matrix)의 수정

실제응답률 2% -> 50%(과대표본추출)

50%(과대표본추출) -> 실제응답률 2%

: 집단 0을 늘이거나, 집단1을 줄이는 방 법으로 조정

집단 0을 늘이는 방법:

500 + 0.98X = X

2%:500 = 100%:X

(30)

과대표본추출(Oversampling)과 비대칭 비용(계속)

II. 과대표본추출에 대한 리프트 곡선의 수정

1. 예측된 ‘성공’ 확률값의 크기 순서대로 검증용 레코드들을 정렬시킨다(‘성공’은 중요 한 집단에 속한다는 것을 뜻한다).

2. 각 레코드에 대하여 실제 성과결과와 관련한 비용(이득)을 기록한다.

3. 위의 비용(이득)값에 이러한 성과를 갖는 원시 데이터의 비율을 곱한다. 따라서 이 값은 조정값이 된다.

4. 가장 높은 확률을 갖는 첫 째행의 레코드에 대하여 위의 조정값은 리프트 도표에서 첫 번째 점의 y좌표에 해당하고, x좌표는 번호 1이다.

5. 그 다음 레코드에 대하여 실제 출력결과와 관련된 조정값을 다시 계산한다. 이 조정 값을 직전 레코드의 조정된 비용(이득)에 합산한다. 이 합계값은 리프트 곡선의 두 번째 점의 y좌표가 된다. x좌표는 번호 2이다.

6. 모든 레코드를 분석할 때까지 5번째 단계를 반복한다. 모든 포인트를 연결한 선은 리프트 곡선이 된다.

7. 참조선은 시작점에서 y = 총 순이익, x = N (레코드의 수)인 점까지를 직선으로 연결 한 선이다.

(31)

어떤 사례의 경우에는 분류모형의 결과에 대해서 특별한 판단을 내 리지 않는 옵션을 두는 것이 유용하다. 즉, 두 집단을 갖는 경우 한 사례에 대해 세가지 예측 중 하나를 선택하는 것을 말한다.

그 사례가 C0 또는 C1에 속하거나, 확실하게 C0 또는 C1을 선택할 만큼 충분한 정보(가능성)가 없기 때문에 예측하기가 어려운 경우가 있다.

분류모형에 의해 분류할 수 없는 사례들은 전문가의 판단에 의해서 또는 정보를 얻기가 더 어렵거나 비용이 더 드는 정보를 추가로 수집 하여 예측변수군을 충분히 확보함으로써 보다 정밀한 조사를 수행한 다.

우선순위 선별전략(Triage strategy)을

이용한 분류

(32)

평균절대오차(MAE 또는 MAD: mean absolute error/deviation) =

이것은 평균 절대오차의 크기를 의미한다.

평균오차(Average error) =

이 측정치는 오차의 부호을 가진다는 것을 제외하고는 MAD와 유사하다. 음의 오차는 동일 한 크기의 양의 오차를 상쇄시킨다.

이 지표는 예측결과가 평균적으로 반응변수를 과대 예측하는지 또는 과소 예측하는지를 알 려준다.

평균절대비율오차(MAPE: mean absolute percentage error) =

이 측정치는 예측결과가 평균적으로 얼마나 실제치에서 벗어나 있는지를 백분율의 점수로 나타낸다.

평균제곱오차의 제곱근(RMSE: root-mean-squared error) =

이것은 학습용 자료가 아닌 평가용 자료에서 계산된다는 것을 제외하고는 표준 예측오차와 유사하다. 이 측정치는 예측된 변수와 동일한 단위를 사용한다.

제곱오차의 총합계(SSE: total sum of squared error) =

5.3 예측모형의 성과평가

1

n1 i

n

i

e

1

n1 i

n

i

e

100% 1 n1 i i

n ie y

2

1 n1 i

n

ie

n 2

e

i

(33)

5.3 예측모형의 성과평가(계속)

참조

관련 문서

제곱근을

프로세스들은 시간 할당량 동안 CPU를 할당 받아 실행되는데, 이 시 간 동안 실행을 종료하지 못하면 운영체제에 의해 준비 상태로 쫓겨 나고, 준비 큐의 다음 프로세스가

– [가트너] 비즈니스 인텔리전스는 조직의 의사결정과 성능을 개 선하기 위한 정보를 수집하고, 이를 분석하기 위한 응용, 인프 라, 도구, 베스트 프랙티스를 모두

• By connecting a TV to the unit with an HDMI cable, you can control your iPod or USB storage device, or configure the settings of the unit with the menu displayed on the

진로연계를 위한 진로탐색 연수는 새말초 교사인 김지은 선생님을 초빙하여 실시하였 다. 교육과정과 연계한 CT 기반의 STEAM 프로그램 분석 나. CT기반의

Digital Holography는 복원과정을 거칠 때, 이미 지의 초점을 보정할 수 가 있는데, 이는 Digital Holography 만의 물체의 Amplitude 와 Phase, 두 정보를

시험불안이 전체 학업성취도에 미치는 영향은,1차 곡선은 부적 방향으로 유의미한 영향을 미쳤으나,2차 곡선은 정적인 방향으로 유의미한 영향을

주택공급을 신청하려는 세대주 또는 세대원의 직계존비속으로서 가목의 배우자와 동일한 세대를 이루고 있는 사람 다.. 주택공급을 신청하려는