• 검색 결과가 없습니다.

목차

N/A
N/A
Protected

Academic year: 2022

Share "목차"

Copied!
23
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

비즈니스 인텔리전스 를 위한

데이터마이닝

12장 판별분석

(2)

비즈니스 인텔리전스를 위한 데이터마이닝

목차

 12.1 개요

 12.2 예제: 잔디깎기기계 작동

 12.3 예제: 개인대출 승인

 12.4 군집으로부터 관찰치의 거리

 12.5 피셔의 선형 분류함수

 12.6 판별분석의 분류성과

 12.7 사전확률

 12.8 비대칭 오분류비용

 12.9 두 개 이상의 집단 분류

 12.10 판별분석의 장단점

2

(3)

비즈니스 인텔리전스를 위한 데이터마이닝

12.1 개요

 판별분석은 분류기법 중의 하나로서 로지스틱 회귀분석 과 같이 분류(classification)와 프로파일링(profiling)에 사용되는 전통적인 통계기법이다. 판별분석은 해당 항목 들이 속해 있는 각 집단들을 분류하기 위해 연속형 변수 를 사용하며, 새로운 항목에 대해서는 이 집단들 중의 한 집단에 속하는 것으로 분류한다.

3

(4)

비즈니스 인텔리전스를 위한 데이터마이닝

12.1 개요

 적용사례

자연과학

동물이나 식물을 서로 다른 종과 그 하위 아종으로 분류

금융

대출, 신용카드, 보험가입 신청자들을 저위험권 또는 고위험군으로 분류

마케팅

신제품 출시시 제품에 대한 수용시기에 따라 고객 그룹을 나눔

기타

인간의 화석의 시대 및 인종, 지역 결정

알코올 중독자와 비중독자 분류 등

4

(5)

비즈니스 인텔리전스를 위한 데이터마이닝

12.2 예제 1: 승차식 잔디깎기 기계

승차식 잔디깎기 기계 제조업체가 이 기계를 구매하고자 하는 가구와 그렇 지 않은 가구를 판별해 내는 방법을 찾고자 하는 승차식 잔디깎기 기계에 대 한 사례로 돌아가보자. 우선 무작위로 각각 12명씩 승차식 잔디깎기 기계 구매자와 비구매자를 표본으로 선정한다. 이 데이터는 제6장의 <표 6.5>에 서 제시되고 있으며, 산점도는 <그림 12.1>에 나타나 있다. 여기서는 하나 의 직선이 2차원의 공간을 한쪽은 구매자이고, 그 반대쪽은 비구매자로 구 성되는 두 개의 영역으로 구분해 주는 선형 분류 규칙을 생각해 볼 수 있다.

좋은 분류 규칙은 데이터가 잘못 분류되는 경우가 거의 없어야 한다.

5

(6)

비즈니스 인텔리전스를 위한 데이터마이닝

12.2 예제 1: 승차식 잔디깎기 기계(계속)

6

 선형분류규칙을 적용한 경우

2차원 공간을 두 개의 영역으로 구분함

(7)

비즈니스 인텔리전스를 위한 데이터마이닝

12.3 예제 2: 개인대출 승인

 유니버셜 은행의 목표는 어떠한 요인이 고객의 대출승인 여부를 결정하는 지를 찾아내는 것이다. 이를 쉽게 설명 하기 위해 연간 소득(Income)과 월간 평균 신용카드 사 용량(CCAvg) 두 가지 변수만 있다고 가정하기로 한다.

결과: 대출을 승인 / 승인하지 않음

예측변수: 연간소득 (Income), 월별 신용카드 평균사용액 (CCAvg)

7

(8)

비즈니스 인텔리전스를 위한 데이터마이닝

12.3 예제 2: 개인대출 승인(계속)

 이 그림에서 소득이 낮고, 월간 평균 신용카드 지출이 적은 데이 터가 대부분 조밀하게 밀집되어 있기 때문에 대출이 승인된 사람 과 승인 안된 사람들간의 관계를 좀더 명확히 파악하기 위해서 소 득과 신용카드지출액에 대해 로 그변환을 사용하였다.

8

(9)

비즈니스 인텔리전스를 위한 데이터마이닝

12.3 예제 2: 개인대출 승인(계속)

 아이디어

새로운 레코드를 분류하기 위해, 각 클래스의 중심들로부터 레코드까지의 거리를 측정

가장 거리가 가까운 클래스로 레코드를 분류

9

(10)

12.4 집단으로부터 관찰치에 이르는 거리

항목들을 가장 잘 분할시키는 분리점을 찾기 위해서는 해당 집단과 항목간의 거리를 측정해야 한다. 이에 대한 일반적인 개념은 각 항목을 해당 항목으로부터 가장 가까운 집단으로 분류하는 것이다. 여기서는 유니버셜 은행의 신규 고객을 대상으로 개인 신 용대출의 가능 여부를 분류한다고 가정하자. 은행의 데이터베이스를 통해서 신용대출 이 승인된 자의 평균 소득은 144,750 달러이며, 신용대출이 거절된 사람의 평균 소득 은 66,240 달러라는 사실을 알 수 있다.

단일변수(소득)에서 두 개 이상의 변수들로 증가하면, 집단의 평균을 집단의 중심점 (centroid)으로 사용한다. 이는 간단하게 평균 벡터 를 이용하여 구할 수 있다. p개의 변수를 갖는 항목(관찰치) 와 중심점(centroid) 사이의 거리인 유클리드 거리는 각 변 수값과 해당 집단의 변수 평균값 간의 차이의 제곱을 합한 후 제곱근을 취한 값으로 정 의한다(식(12.1) 참조).

   ,

1 1

2

1

2

Euclidean p

D x xx     x x x

(11)

12.4 집단으로부터 관찰치에 이르는 거리 (계속)

유클리드 거리를 이용한 방법은 두 가지 단점을 갖고 있다.

첫째, 거리 측정이 선택 변수의 측정단위에 따라 달라진다는 점이다. 소득을 천달러기준이 아 닌, 일달러기준으로 측정할 경우, 소득에 의한 거리는 달라지게 된다. 둘째, 유클리드 거리는 변수의 변동성을 고려하지 못한다. 예를 들어 두 집단의 소득의 변동성을 비교할 때, 대출 승 인자들의 표준편차가 대출 비승인자에 비해 낮게 나타났다(31,600 달러 대 40,600 달러). 따 라서 대출 승인 불가자의 소득은 변동성이 매우 높기 때문에, 신규 고객이 대출 비승인자임에 도 불구하고 대출 승인자의 달러 기준 평균 소득에 가까울 수도 있다. 따라서 거리 측정시 다 른 변수들의 변동성을 고려할 필요가 있으며 원래 단위(척도)보다 표준편차로 나눈 표준단위 값을 이용하여 거리측정을 해야 한다. 이것은 z값(z-scores)과 같다.

둘째, 유클리드 거리는 변수들 사이의 상관관계를 무시한다. 이는 특히 많은 수의 변수들을 이 용하여 다수의 집단을 분리하려고 할 때 매우 중요한 고려사항이다. 변수들간의 상관관계가 있는 경우, 각 집단 사이를 판별하는 데 유용한 변수들이 있을 지라도 이들 변수들을 함께 사 용할 경우 동일한 변수의 효과가 중복해서 나타나게 된다. 이러한 문제점들을 해결하기 위해 서는 통계적 거리(statistical distance) 혹은 마할라노비스 거리(Mahalanobis distance)로 불 리는 측정 도구를 사용한다. p개의 변수 사이의 공분산 행렬을 S라고 가정하자. 통계적 거리 에 대한 정의는 식(12.2)와 같다.

(12)

비즈니스 인텔리전스를 위한 데이터마이닝

12.4 집단으로부터 관찰치에 이르는 거리 (계속)

 

    

1

1 1

2 2

1

1 1 2 2

,

, , ,

p p

p p

D x x x x S x x

x x x x

x x x x x x S

x x

통계적 거리

   

  

  

 

 

       

  

 

 

12 공분산 행렬 S의 역행렬

(나눗셈이 p-차원으로 확장됨)

 단일 예측변수 (p=1)라면, z-score에 해당됨

 p > 1일 때, 통계적 거리는 예측변수들 사이의 상관관계

를 설명함

(13)

12.5 선형 분류함수 적용

아이디어는 각 클래스로부터의 거리를 반영하는 분류 점수를 생성하는 것

이는 통계적 거리의 함수인 “분류함수”를 추정함으로써 얻을 수 있다.

추정은 급간 변동 대 급내 변동 비율을 최대화하여 얻는다.

피셔의 선형 분류함수: 각 클래스별로 하나씩. 분류 점수를 계산하는 데 사용

가장 높은 점수를 주는 클래스로 레코드 분류

예시로, record #1: income = $60K, lot size = 18.4K

Owner score = -73.16 + (0.43)(60) + (5.47)(18.4) = 53.2 Non-owner score= -51.42+(0.33)(60)+(4.68)(18.4)= 54.48

“Non-owner” 점수가 더 높다→ non-owner로 (오)분류

ow ne r non-ow ne r

-73.16020203 -51.42144394 0.42958561 0.32935533 5.46674967 4.68156528 Va ria ble s

Constant Income Lot_Size

Cla ssifica tion Function

(14)

12.5 피셔의 선형 분류함수

선형 분류함수의 기본 개념은 집단간의 변동성 대 집단 내의 변동성의 비율을 극 대화 시키는 측정변수들의 선형 함수를 찾는 것이다. 즉, 개별 집단내에서는 매우 동질적(homogeneous)이지만, 다른 집 단과 비교할 때는 가장 큰 차이가 나타나 도록 집단을 찾아내는 것이다.

이 분류함수는 개별 관찰치와 각 집단 사 이의 근접성을 점수로 계산하기 위해서 사용된다. 각 관찰치는 가장 높은 분류점 수(가장 가까운 통계적 거리)를 가지고 있는 집단에 속한 것으로 분류된다.

(15)

12.5 피셔의 선형 분류함수(계속)

(16)

비즈니스 인텔리전스를 위한 데이터마이닝

12.6 판별분석의 분류성과

판별분석은 분류 점수에서 두 가지 중요한 가정을 하고 있다.

첫 번째 가정은 모든 집단의 측정치는 다변량 정규 분포를 따른다는 것이 다. 이 가정이 무리없이 충족될 때, 판별분석은 로지스틱 회귀 분석 등의 다른 분류기법보다 더 나은 분석도구가 될 수 있다.

두 번째 가정은 한 집단내에서의 측정변수들간의 상관관계는 다른 집단 에서의 측정변수들 사이에서도 그와 동일한 상관관계를 갖는다는 것이다 . 이러한 가정은 각 집단별로 변수들간의 상관계수 행렬을 추정하여 비교 해 봄으로써 어느 정도 확인될 수 있다.

분류의 정확성을 평가할 때에는 분류모형의 성과를 판단하기 위해 사 용되는 일반적인 성과 측정치를 사용한다. 여기에는 정오분류표(정확 도 혹은 비용과 결합된 정확도)와 리프트 도표(lift chart)가 있다.

16

(17)

비즈니스 인텔리전스를 위한 데이터마이닝

12.7 사전확률

미래의 분류를 위해 해당 항목이 나타날 확률이 집단별로 동일하지 않다면, 기대(평균) 오차율을 줄이기 위해 분류 함수를 수정해야 한 다. 함수의 수정은 다음과 같이 이뤄진다. 즉 p

j

를 집단 j에 속한 소속 집단의 사전 또는 미래 확률로 표기하자(두 집단의 경우 p

1

과 p

2

=1- p

1

을 가진다). 각 집단의 분류함수에 log(p

j

)를 추가한다.

17

(18)

비즈니스 인텔리전스를 위한 데이터마이닝

12.8 비대칭 오분류비용

집단별로 오분류비용이 대칭적이지(동일하지) 않는 경우, 실질적인 수정이 추가로 요구된다. 집 단 1의 항목에 대한 오분류비용이 집단 2의 항목에 대한 오분류비용과 큰 차이가 난다면, 단순한 오차율보다는 기대 오분류비용을 최소화시키는 것이 필요하다(단순 오차율은 이러한 비대칭 오 분류비용을 인식하지 못한다).

두 집단의 경우 오분류비용을 다르게 반영시키기 위해 분류함수를 수정하는 작업은 간단하다(이는 사전확 률을 추가하는 것이다). 이제 C1를 집단 1에 속한 항목을 집단 2로 잘못 분류하였을 때의 오분류비용으로 표기하고, 마찬가지로 C2도 집단 2에 속한 항목을 집단 1로 잘못 분류함에 따른 오분류비용으로 표기한다 고 가정하자. 이 비용들은 집단 1의 상수에 log(C1)을 추가하고, 집단 2의 상수에 log(C2)를 추가함으로써 분류함수의 상수에 통합된다. 따라서 사전확률과 오분류비용을 통합시키는 방법은 log(p1C1)을 집단 1의 상수에 추가하고, 집단 2의 상수에도 log(p2C2)을 추가하는 것이다

실제로는 각 집단의 오분류비용 C1과 C2를 다루는 것이 항상 쉬운 일은 아니다. 대개의 경우 C2/C1의 비용비율을 추정하는 것이 훨씬 쉽다(예를 들어, 오분류의 신용파산자에 대한 오분류비 용은 그렇지 않은 신용있는 자에 대한 오분류비용보다 비용이 10배 더 크다).

따라서 다행히 분류함수간의 관계를 단지 C2/C1의 비율로 설명할 수 있게 되면, C1=1, C2=ratio로 가정하 여 집단 2의 상수에만 log (C2/C1)함수를 추가하면 된다.

18

(19)

비즈니스 인텔리전스를 위한 데이터마이닝

12.9 두 개 이상의 집단 분류

 예제 3: 사고 현장의 의료진 출동

목적은 예측변수들이 사고 유형을 얼마나 잘 분류해 내느냐는 것 이다. 이를 평가하기 위해 1,000개의 사고 기록이 있는 표본을 학습용, 평가용 집합으로 분리하고, 학습용 데이터에 대해서 판 별분석을 실시하였다. 그 결과, 두 집단의 결과는 서로 매우 유사 하게 나타났다. 유일한 차이점은 각 관찰치가 3개의 분류 함수를 가지고 있다는 점이다(각 부상 유형당 하나). 그리고 정오분류표 와 오차 행렬은 정분류와 오분류의 모든 조합을 설명하기 위해 3*3 행렬구조로 되어 있다(<그림 12.8> 참조).

19

(20)

12.9 두 개 이상의 집단 분류(계속)

예제 3: 사고 현장의 의료진 출동

(21)

12.9 두 개 이상의 집단 분류(계속)

예제 3: 사고 현장의 의료진 출동

(22)

비즈니스 인텔리전스를 위한 데이터마이닝

12.10 판별분석의 장단점

 장점

로지스틱 회귀분석과 마찬가지로 단일 예측변수의 기여도를 측 정한다. 이에 따라 예측변수의 중요도 순위를 정하고 변수를 선 정할 때 유용하다.

계산과정이 간단하고, 간명하며, 특히 작은 데이터 집합에서 유 용하게 적용될 수 있다. 판별분석은 데이터를 최대한으로 이용하 여 추정산식을 만들기 때문에 특히 데이터가 적을 때 유용하다

 단점

판별분석을 적용하기 위해서는 다음과 같이 몇 가지 조건이 전제 되어야 한다.

예측변수들은 다변량 정규 분포를 따른다고 가정한다.(정규분포)

각 집단(종속변수)들의 분산이 같다고 가정한다.(등분산성)

변수간의 관계는 선형성을 갖는다고 가정한다.(선형성)

판별분석의 종속변수는 독립변수들간의 선형적 결합에 기초하여 분류 된다.

22

(23)

비즈니스 인텔리전스를 위한 데이터마이닝

데이터마이닝 정리

23

Overview of the steps constructing the KDD process [Fayyad, 1996]

Database/data warehouse

Performance system

Cleaned data

Transformed data

Patters / model

Evaluation Selection

and sampling

Preprocessing and cleaning

Transformation and reduction

Data mining

Visualization

User

Target data

Supervised – Prediction/Classification Unsupervised – Clustering/Reduction

참조

관련 문서

그리고 차이가 있다면 어떤 집단 간에 차이가 있는지를 사후분석 하시오 ....

만약에 컴에 하드가 2개 달렸다면 Drive 항목에 2 라고 하나 더 보여줌.. 일반적으로 1번은 C 드라이브가 되므로 그냥 1번을

예산의 총액을 먼저 결정하고 그 다음에 예산의 개별 항목에 대한 결정이 이루어지는 식으로 예산에 대한 결정이 두 단계로 이루어질 경우 예산과정이

• 손익계산서 항목에 대해서도 동일한 원칙을 적용하 지만 현행환율의 적용 항목에 대해 편의상 기간 중 평균환율로 환산함. • 환산과정에서 발생한 손익은 실현 ,

왜냐하면“집합”에 대한 “집단”처 럼 단순한 동의어이 거나 또는 사전에서와 같은 순환에 빠지는 정의이어서도 안되기 때문이다.. 추측컨데, Cantor는 집합이라는 용어의

Caption 메뉴 항목에 출력되는 문자열로 엑세스키 설정 시 해당 문자 앞에 &amp;를 붙 인다.. Separator 메뉴 항목들을

요구사항의 품질을 측정하기 위한 모델은 요구사항 품질 평가 항목에 따른 소프트웨어 요구사항 품질 특성을 참고하여 점검한다.. 요구사항의 품질을

본고에서는 간 질환에서 흔히 사용되는 생화학 검사 또는 간기능 검사 (liver function test) 항목에 대해서 기술하고자 한다..