• 검색 결과가 없습니다.

 9.2 분류나무

N/A
N/A
Protected

Academic year: 2022

Share " 9.2 분류나무 "

Copied!
32
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

비즈니스 인텔리전스 를 위한 데이터마이닝

9장 분류 회귀 나무(CART)

(2)

비즈니스 인텔리전스를 위한 데이터마이닝

 9.1 개요

 9.2 분류나무

 9.3 반복적 분할

 9.4 예제 1: 승차식 잔디깎기의 구매

 9.5 분류나무의 성과 평가

 9.6 과적합화 없애기

 9.7 분류나무에 의한 분류규칙

 9.8 회귀나무

 9.9 분류와 회귀나무기법의 장단점과 추가 고려사항

목차

2

(3)

비즈니스 인텔리전스를 위한 데이터마이닝

이 장에서는 먼저 나무방법론에 의한 분류 절차에 대해서 논의하고, 이어서 연속형 종속변수를 예측하는데 이 절차를 어떻게 확장할 수 있는 지를 설명하기로 한다.

CART(Classification and Regression Tree; 분류와 회귀나무)는 분 류절차를 구현하기 위해 개발한 프로그램을 지칭하는 용어이다. 또 한 이와 관련된 분류 절차는 C4.5로 불린다.

나무분류모형이 흔히 사용되는 이유는 나무가 매우 큰 경우에도 나 무규칙을 이해하기가 쉽기 때문이다.

서론

3

(4)

비즈니스 인텔리전스를 위한 데이터마이닝

서론 (계속)

4

• 예제에 있는 나무를 보도록 하자.

• 직사각형의 종점 마디(terminal node)는 승인(1) 또는 거부(0)에 따라 0 또는 1로 숫자를 부여 받 는다.

• 원 마디(circle node)에 있는 값 은 예측변수에 대한 분할값 (splitting value)을 제공한다.

• 이 나무는 은행고객을 분류하는 일련의 규칙으로 쉽게 전환될 수 있다. 예를 들면, 이 나무의 중간 왼쪽의 직사각형 마디는 다음의 규칙을 제공한다

IF(소득 > 92.5) AND (학력 < 1.5) AND (가족 <= 2.5) Then 집단 = 0 (거부)

(5)

비즈니스 인텔리전스를 위한 데이터마이닝

분류나무의 기본이 되는 두 가지 핵심 개념

독립변수의 차원 공간에서 반복적 분할을 수행하는 것이다.

평가용 데이터를 사용하여 가지치기를 하는 것이다.

분류나무의 장점

지도학습 (분류 및 예측)의 데이터마이닝 기법

적용결과에 의해 if-then으로 표현되는 규칙이 생성

규칙의 이해가 쉽고 SQL과 같은 DB언어로 표현

좋은 해석력으로 널리 쓰임

많은 분야에서는 결정을 내리게 된데 대한 이유를 설명하는 능력 이 중요함 (해석력)

예: 은행의 대출심사 결과 부적격 판정이 나온 경우 고객에게 부적격 이유를 설명하여야 함

분류나무

5

(6)

비즈니스 인텔리전스를 위한 데이터마이닝

뿌리마디(root node): 나무구조가 시작되는 마디로 전체 자료로 이 루어져 있다.

자식마디(child node): 하나의 마디로부터 분리되어 나간 2개 이상 의 마디들

부모마디(parent node): 주어진 마디의 상위마디

끝마디(terminal node): 자식마디가 없는 마디

중간마디(internal node): 부모마디와 자식마디가 모두 있는 마디

가지 (branch): 한의 마디로부터 끝마디 까지 연결된 일련의 마디들.

깊이 (depth): 뿌리마디부터 끝마디 까지의 중간마디의 수

분류나무의 구성요소들

6

(7)

비즈니스 인텔리전스를 위한 데이터마이닝

Training Data

NAME RANK YEARS TENURED Mike Assistant Prof 3 no

Mary Assistant Prof 7 yes

Bill Professor 2 yes

Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no

Classification Algorithms

IF rank = ‘professor’

OR years > 6

THEN tenured = ‘yes’

Classifier (Model)

Classification Process (1):

Model Construction

(8)

비즈니스 인텔리전스를 위한 데이터마이닝

Classification Process (2):

Use the Model in Prediction

Classifier

Testing Data

NAME RANK YEARS TENURED Tom Assistant Prof 2 no

Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes

Unseen Data

(Jeff, Professor, 4)

Tenured?

(9)

비즈니스 인텔리전스를 위한 데이터마이닝

종속(반응)변수는 y, 독립(예측)변수는 x1, x2, x3, …, xp으로 표시된다고 하 자. 분류문제에서는 반응변수는 범주형 변수이어야 한다. 반복적 분할은 변 수 x의 p차원 공간을 겹치지 않는 다차원 직사각형으로 나눈다. 여기서, 변 수 X는 연속형, 이진 혹은 서열 척도이다. 먼저, 변수중 하나인 xi가 선택되

x

i의 값, 즉

s

i가 p차원의 공간을 두 개의 부분으로 나누도록 선정된다.

한 부분은 xi<=si인 모든 점들을 포함하고, 나머지 점들은 xi>si가 된다. 그리 고 나서 다시 변수를 선정해서(xi가 될 수도 있고 또는 다른 변수가 될 수도 있다) 이 두 부분중 한 부분을 같은 방식으로 나눈다. 이 결과는 세 개의 (다 차원) 직사각형 영역이 된다. 이 과정이 계속되면 직사각형 영역은 더욱 작 아진다.

이 개념은 모든 x-공간을 직사각형으로 나누어서 각 직사각형이 가능한 한

‘순수(pure)’하게 또는 동질적(homogenous)이 되도록 하는 것이다. 여기서

‘순수’의 의미는 각 점들이 단 하나의 집단에 속하는 것을 말한다(물론 이 경우가 항상 가능한 것은 아니며, 이 점들이 다른 집단에 속할 수 있지만 독 립 변수의 모든 경우에 대해 정확히 같은 값을 갖는다).

반복적 분할

9

(10)

비즈니스 인텔리전스를 위한 데이터마이닝

 승차식 잔디깎기 기계의 구매 예제

승차식 잔디깎기 기계 제조업체는 도시에 사는 가구들을 대상으 로 승차식 잔디깎기 기계를 구입할 가구와 구입하지 않을 가구로 분류하는 방법을 찾고자 한다.

시험용으로 무작위 추출한 12명의 승차식 잔디깎기 기계 사용자 와 비사용자가 선정되었다.

예제 1: 승차식 잔디깎기 기계의 구매

10

(11)

11

<표 9.1> 24개 가구에 대한 승차식 잔디깎기 소유 데이터

(12)

비즈니스 인텔리전스를 위한 데이터마이닝 12

예제 1: 승차식 잔디깎기 기계의 구매 (계속)

동질성이 높아짐

분할값 선택

-연 속 된 값 들 사 이 의 중간값

불순도 제거/감소

- 분할전 불순도-분할후 불순도

(13)

비즈니스 인텔리전스를 위한 데이터마이닝

불순도를 측정하는 방법에는 여러 가지 방식이 있다. 가장 대표적인 두 가지 측정치로는 지니 지수(Gini index)와 엔트로피 지수(entropy measure)가 있다.

반응변수의 m개의 집단은 k=1, 2, … , m으로 표기된다고 가정할 경 우, 직사각형 A에 대한 지니 불순도 지수(Gini impurity index)는 다 음과 같이 표기된다.

두 번째 불순도 측정치는 엔트로피 지수(entropy measure)이다. 직 사각형 A에 대한 엔트로피 지수는 다음과 같이 정의된다.

불순도 측정치

13

( )

2

1

1

m k k

I A p

=

= −

( )

2

( )

1

log

m

k k

k

entropy A p p

=

= − ∑

(14)

비즈니스 인텔리전스를 위한 데이터마이닝

불순도 측정치(계속)

14

(15)

비즈니스 인텔리전스를 위한 데이터마이닝 15

불순도 측정치(계속)

(16)

비즈니스 인텔리전스를 위한 데이터마이닝 16

불순도 측정치(계속)

(17)

비즈니스 인텔리전스를 위한 데이터마이닝 17

불순도 측정치(계속)

(18)

비즈니스 인텔리전스를 위한 데이터마이닝 18

불순도 측정치(계속)

(19)

비즈니스 인텔리전스를 위한 데이터마이닝

새로운 사례를 분류함에 있어 나무의 정확도를 평가하기 위해서 우 선 데이터를 학습용과 평가용 데이터집합으로 나누도록 한다.

학습용집합은 나무를 학습하는데 사용되고 평가용집합은 나무의 성 과를 측정하는데 사용됨

평가용(혹은 검증용) 데이터의 각 관찰치는 나무에 적용되고 나무에 서 연결된 끝마디에 따라 분류된다. 이렇게 예측된 집단은 정오분류 표를 통해 실제 소속값과 비교된다. 특정 집단에 관심이 있을 때 리 프트 도표(lift chart)는 모형이 각 소속값을 잘 분류할 수 있는지를 평가하는 데 유용하게 사용된다.

분류나무의 성과 평가

19

(20)

비즈니스 인텔리전스를 위한 데이터마이닝

유니버셜(Universal) 은행은 전체 고객들 관점에서 급격히 성장하고 있는 신생 은행이다. 예금을 하는 고객은 아주 적은 편이며, 은행은 더 많은 대출 사업을 확장하여 규모를 빨리 성장시키고 싶어한다. 특 히, 은행은 채무가 있는 고객들을 개인 대출 고객으로 전환하는 방법 을 찾고자 한다.

은행이 채무 고객들에게 펼친 캠페인은 9% 성공의 꽤 많은 전환율 을 보인다. 이점에 고무받아 개인영업부서는 더 좋은 표적마케팅으 로 더 똑똑한 캠페인을 설계하려고 한다.

이 분석의 목적은 고객으로 하여금 개인 대출을 신청하게 만드는 여 러 요인들을 분석하여 이전 캠페인에 따른 고객 행동을 모형화하는 것이다.

은행의 데이터집합은 고객 5,000명에 대한 데이터로 구성됨.

데이터는 고객의 인구통계학적 정보(나이, 소득 등의 변수), 마지막 대 출 캠페인에 대한 고객의 응답(personal loan변수), 은행과 고객과의 관 계(mortgage, securities account 등의 변수)으로 구성된다. 이 5,000 명의 고객 중에서 480명(9.6%)만이 이전의 캠페인에서 제의 받은 개인 대출을 받아 들였다.

예제 2: 개인 대출 승인

20

(21)

비즈니스 인텔리전스를 위한 데이터마이닝

예제 2: 개인 대출 승인(계속)

21

(22)

비즈니스 인텔리전스를 위한 데이터마이닝

예제 2: 개인 대출 승인(계속)

22

(23)

비즈니스 인텔리전스를 위한 데이터마이닝

예제 2: 개인 대출 승인(계속)

23

(24)

비즈니스 인텔리전스를 위한 데이터마이닝

예제 2: 개인 대출 승인(계속)

24

(25)

비즈니스 인텔리전스를 위한 데이터마이닝

과적합(Overfitting)

학습용 데이터에 기초한 완전 성장한(full-grown) 나무는 데이터를 과적합시키게 됨.

새로운 데이터에서 낮은 성과를 초래하게 만든다.

나무의 다양한 분할수준에서 전체 오차를 살펴볼 때, 과적합을 하게 되면 분할수준의 수가 증가하면서 전체적인 오차가 감소한다. 물론, 학습용 데이터의 경우는 전체 오차 가 점점 감소하여 나무의 최대 마디수준에서 0이 된다. 그러나, 새로운 데이터에 대해 서는 나무가 집단과 예측변수 사이의 관계를 모형화하는 학습점까지는 전체 오차가 일 반적으로 감소하지만, 이 점을 지나면, 나무는 학습용 집합에서 잡음(noise)을 모형화 하기 시작하고 평가용 집합에서 전체 오차는 일반적으로 증가한다.

나무의 높은 마디 분리수준에서 과적합이 발생하는 직관적인 이유는 이 분리된 마디가 매우 작은 관찰치를 사용하기 때문이다. 이러한 경우에는 집단간의 차이가 예측변수 정보보다는 잡음에 기반하여 발생하였을 가능성이 높다.

과적합을 제한하는 두 가지 방법

나무의 성장을 멈추는 규칙을 정하는 것

전체 성장한 나무를 과적합화 되지 않는 수준으로 다시 되돌리는 가지치기를 하는 것

과적합(Overfitting) 없애기

25

(26)

비즈니스 인텔리전스를 위한 데이터마이닝

과적합(Overfitting) 없애기(계속)

26

학습용 데이터 대 평가용 데이터에 대한 오차율과 분할마디수의 함수 (모형의 과적합화 문제를 체크할수 있다)

(27)

비즈니스 인텔리전스를 위한 데이터마이닝

나무가 데이터를 과적합시키기 전에 나무의 성장을 중단시키기 위한 다양한 기준이 가정될 수 있다.

예를 들면, 나무의 깊이(즉, 마디 분할의 횟수), 마디안에서의 최소 데이터 수, 불순도의 최소한의 감소 등이다.

그러나 문제는 이러한 규칙을 사용하여 적절한 학습 종료시점을 결정하는 것이 그렇게 간단하지 않 다는 것이다.

반복적 분할(recursive partition)에 기초하여 개발된 과거의 방법들은 나무가 학습 데이터 에 대해서 과도하게 분기(성장)하여 과적합하는 것을 방지하는 규칙을 사용하고 있다.

CHAID(Chi-square automatic interaction detection)

분류와 회귀나무(CART)의 절차보다 수 년 이상 먼저 개발된 반복적 분할 방법으로서 오늘날 데이 터베이스 마케팅에서 폭넓게 사용되고 있다.

이 방법은 순도를 통계적으로 유의한 양만큼 개선시키기 위해 마디를 더 분할할 지 여부에 대한 판 단을 잘 알려진 통계 검증(독립변수에 대한 카이제곱)을 이용하여 결정한다.

특히, 각 마디에서 반응변수와 가장 강하게 연관된 예측변수를 분할한다. 연결강도는 각 독립변수 의 카이제곱 검정에 의한 p값으로 측정한다.

만약 가장 좋은 예측변수를 이용한 마디 분할의 검정결과가 유의적으로 향상되지 않는다면, 분할은 수행되지 않고 나무는 그대로 종료된다.

이 방법은 범주형 예측변수에 더 적합하지만, 연속형 변수는 범주형으로 변환되어 이를 적용할 수 있다.

분류나무 학습(분기, 성장)의 중단: CHAID

27

(28)

비즈니스 인텔리전스를 위한 데이터마이닝

과적합에 대한 또 다른 해결방안으로는 나무 성장을 멈추는 것보다 더 성공적인 방법인 완 전 성장한 나무에 가지치기를 적용하는 것이다.

가지치기에 대한 기본적인 아이디어는 매우 큰 나무는 학습 데이터에 대해 과적합될 여지 가 많으며, 오차를 거의 줄일 수 없는 가장 약한 가지는 제거되어야 한다는 것이다.

CART (Breiman 등이 개발하고 SAS Enterprise Miner, CART, MARS, XLMiner 등의 다기 능 데이터마이닝 소프트웨어 패키지에 구현되어 있다)와 C4.5 (Quinlan이 개발했으며 SPSS의 Clementine과 같은 패키지에 구현되어 있다) 등이 이러한 방법을 사용한다.

C4.5에서는 학습용 데이터가 나무의 성장과 가지치기에 모두 사용된다. 그러나, CART에 서는 학습 데이터를 이용하여 나무를 성장시키고, 검증용 데이터를 이용하여 가지치기를 하는 새로운 방법이 적용된다. CART및 이와 유사한 절차들은 학습 데이터를 이용하여 의 도적으로 나무를 과도하게 성장시킨 다음, 다시 검증용 데이터를 이용하여 가지치기를 수 행한다.

분류나무의 가지치기

28

(29)

비즈니스 인텔리전스를 위한 데이터마이닝

분류와 회귀나무기법은 패키지화된 좋은 분류 및 예측 도구이다.

이 방법은 또한 나무의 상위 분리수준에서 일반적으로 나타나는 가장 중요한 입력변수들을 사용 하는 등의 입력변수를 선정하는 데에도 매우 유용하다.

이 나무는 다음과 같은 측면에서 사용자들에게 상대적으로 적은 노력을 필요로 한다.

첫째, 변수를 변환(transformation)할 필요가 없다(변수의 순서를 바꾸지 않는 어떤 단조 변환(monotone transformation)도 동일한 나무를 생성한다).

둘째, 변수군의 선택은 분할의 일부이므로 자동으로 수행된다. 대출평가 예제에서, 최적의 가지친 나무는 자동적으로 14개의 변수군 중에서 4개의 변수(소득, 교육, 가족, 신용카드 평균사용량)만을 선택하는 것을 보면 이를 쉽게 알 수 있다.

분류와 회귀나무에서 마디 분할의 선택은 관찰값들의 순서에 따라 결정되는 반면, 이 값들의 절대 크기에 따라 이루어지지 않기 때문에 또한 기본적으로 극단치의 효과가 상대적으로 적다.

그러나, 이 모형은 데이터의 변화에 민감하고 심지어 약간의 데이터 변경에도 다른 분할을 만들어 낸다.

모형의 장단점과 추가 고려사항

29

(30)

비즈니스 인텔리전스를 위한 데이터마이닝

입력변수와 출력변수 사이의 특정한 관계를 가정하는 모형과는 달리(예, 선형회귀식, 선형판별분석과 같은 선형관계), 분류와 회귀나무는 비선형이고 비모수 방법이기 때 문에 입력변수와 출력변수 사이의 다양한 유형의 관계가 가능하다. 하지만, 이 점이 약점이 될 수도 있다.

분류나무의 성과와 관련된 또 다른 문제는 좋은 분류모형을 만들기 위해서는 많은 데 이터 집합이 필요하다는 것이다.

모형의 장단점과 추가 고려사항(계속)

30

(31)

비즈니스 인텔리전스를 위한 데이터마이닝

분할이 입력변수들간의 조합보다 단일 입력변수들을 바탕으로 행해지기 때문에, 이 나무기법은 선형 또는 로지스틱 회귀모형에서 특정 선형 구조하에서 입력변수들간의 관계를 반영하지 못하는 경우가 종종 있다.

31

모형의 장단점과 추가 고려사항(계속)

(32)

비즈니스 인텔리전스를 위한 데이터마이닝

모형연산(학습시간) 측면에서 나무모형은 모든 변수에 대해 모든 가능한 분 리를 계산하기 위해서 수많은 정렬계산과정이 필요하기 때문에 나무를 성장 (학습)시키는 데 상대적으로 많은 시간이 소요된다. 또한 평가용 집합을 이 용하여 데이터를 가지치기를 할 경우 더 많은 계산 시간이 요구된다.

분류와 회귀나무의 강점은 결측치를 대체하거나 결측값을 가진 관찰치를 삭 제하지 않아도 결측 데이터를 처리할 수 있다는 것이다.

이 방법은 해당 변수가 분류의 질에 미치는 영향도를 변수들의 중요도 순위를 평가하는 목적 으로 확장해서 이용될 수 있다.

분류와 회귀나무에서 가장 실제적으로 중요한 이점은 나무들이 생성하는, 이해하기 쉽게 표현된 규칙에 있다. 이러한 명확성으로 인해서 경영분야에 서 많이 활용되고 있다.

32

모형의 장단점과 추가 고려사항(계속)

참조

관련 문서

◦ 읽기와 쓰기 동작이 자유로운 편이어서 RAM과 ROM의

삼각법에는 평면 삼각법 (plane trigonometry)과 구면 삼각법(spherical trigonometry)이 있다. 평면 삼각법이란 평면 위 에서 삼각형의 변과 각 사이의 관계를

 K-최근접이웃기법(K-nearest neighbor)의 기본사상은 분류하고자 하는 새로운 레코드와 유사한 학습용 데이터 집합에 있는 k개의 관찰치를 확인하는 것이다.

• Chebyshev: 원하는 필터 응답과 이상적 필터 사이의 차이의 최대 젃대값 계 산으로부터 통과 대역 내에서 피크 오차가 최소. → Chebyshev 필터의 주파수 응답

• 그러나 중생의 체험을 통해 새로운 피조물 이 됨으로 완전한 본질적인 변화의 가능성 을 밝혔다. • 타락한 인간이

 종종 관리자나 의사결정권자는 두 변수들 사이의 관계를 이해 하는데 도움이 되는 표 형식과 도표 형식의 방법들을 필요로 한다.  지금까지 우리는 한 번에 하나의

The 1990 American College of Rheumatology Classification Criteria for Wegener’s Granulomatosis and Churg-Strauss Syndrome (Data obtained from ref. 12, 13).. Wegener's

우리나라 교육과정에서 차지하는 비중이 매우 높 기에 모두가 중요하다고 인정하고 수학 공부에 많은 힘을 쏟고 있다... NP-난제에 속하며, 흔히 계산 복잡도 이