2019, 30
(3)
,515–524
모형 기반 하이브리드 의사결정나무
†
ᄌ
ᅥᆫ유택
1
·조형준2
12고려대학교 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 17ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 4ᄋ ᅯ ᆯ 5ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 4ᄋ ᅯ ᆯ 12ᄋ ᅵ ᆯ
요 약
ᄋ
ᅴᄉ ᅡᄀ ᅧ ᆯᄌ ᅥ ᆼᄂ ᅡᄆ ᅮᄂ ᅳ ᆫ ᄌ ᅮᄋ ᅥᄌ ᅵ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄇ ᅧ ᆫᄉ ᅮ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄋ ᅳ ᆯ ᄋ ᅧᄅ ᅥ ᄀ ᅢᄋ ᅴ ᄃ ᅡ ᆫᄉ ᅮ ᆫ ᄒ ᅡ ᆫ ᄉ ᅡᄀ ᅡ ᆨ ᄒ ᅧ ᆼᄐ ᅢᄋ ᅴ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫ ᄒ ᅡ ᆯᄒ ᅢᄀ ᅡᄆ ᅧ ᆫᄉ ᅥ ᄆ
ᅩ
ᆨ ᄑ ᅭ ᄃ ᅢᄉ ᅡ ᆼᄋ ᅳ ᆯ ᄇ ᅮ ᆫ ᄅ ᅲᄒ ᅡᄀ ᅥᄂ ᅡ ᄋ ᅨᄎ ᅳ ᆨ ᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄋ ᅴᄉ ᅡᄀ ᅧ ᆯᄌ ᅥ ᆼᄂ ᅡᄆ ᅮᄂ ᅳ ᆫ ᄉ ᅡᄋ ᅭ ᆼ ᄋ ᅵ ᄋ ᅭ ᆼ ᄋ ᅵᄒ ᅡᄆ ᅧ, ᄋ ᅵᄒ ᅢᄒ ᅡᄀ ᅩ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄒ ᅡᄀ ᅵ ᄉ ᅱᄋ ᅮ ᆫ ᄀ
ᅮᄌ ᅩᄅ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ ᄉ ᅥᄑ ᅩᄐ ᅳ ᄇ ᅦ ᆨᄐ ᅥ ᄆ ᅥᄉ ᅵ ᆫᄀ ᅪ ᄀ ᅡ ᇀᄋ ᅵ ᄉ ᅮᄌ ᅵ ᆨᄉ ᅥ ᆫ ᄒ ᅩ ᆨᄋ ᅳ ᆫ ᄉ ᅮᄑ ᅧ ᆼᄉ ᅥ ᆫ ᄒ ᅧ ᆼᄐ ᅢᄋ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅢ ᄒ ᅯ ᆯᄊ ᅵ ᆫ ᄇ ᅩ ᆨ ᄌ ᅡ ᆸᄒ ᅡ ᆫ ᄀ ᅧ
ᆯᄌ ᅥ ᆼ ᄀ ᅧ ᆼᄀ ᅨᄅ ᅳ ᆯ ᄌ ᅵᄂ ᅵ ᆫ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅦ ᄇ ᅵᄒ ᅢ ᄋ ᅨᄎ ᅳ ᆨ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄀ ᅡ ᄉ ᅡ ᆼᄃ ᅢᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄂ ᅡ ᆽᄃ ᅡᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮ ᄋ
ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅲᄋ ᅧ ᆫᄒ ᅡ ᆫ ᄀ ᅧ ᆯᄌ ᅥ ᆼ ᄀ ᅧ ᆼᄀ ᅨᄅ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄋ ᅴᄉ ᅡᄀ ᅧ ᆯᄌ ᅥ ᆼᄂ ᅡᄆ ᅮ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄅ ᅩ ᆫᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄈ ᅮᄅ ᅵ ᄆ ᅡᄃ ᅵᄋ ᅦᄉ ᅥᄇ ᅮᄐ ᅥ ᄋ ᅲᄋ ᅧ ᆫᄒ ᅡ ᆫ ᄀ ᅧ ᆯᄌ ᅥ ᆼ ᄀ ᅧ
ᆼᄀ ᅨᄅ ᅳ ᆯ ᄌ ᅵᄂ ᅵᄂ ᅳ ᆫ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄋ ᅨᄎ ᅳ ᆨ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄅ ᅳ ᆯ ᄒ ᅣ ᆼᄉ ᅡ ᆼᄉ ᅵᄏ ᅵ ᆫᄃ ᅡ. ᄄ ᅩᄒ ᅡ ᆫ, ᄋ ᅵᄂ ᅳ ᆫ ᄂ ᅡᄆ ᅮ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄏ ᅳᄀ ᅵᄃ ᅩ ᄌ ᅮ ᆯ ᄋ ᅧᄌ ᅮ ᆫ ᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅦᄋ ᅵᄐ ᅥᄆ ᅡᄋ ᅵᄂ ᅵ ᆼ, ᄋ ᅴᄉ ᅡᄀ ᅧ ᆯᄌ ᅥ ᆼᄂ ᅡᄆ ᅮ, ᄒ ᅩ ᆫ ᄒ ᅡ ᆸ ᄆ ᅩᄒ ᅧ ᆼ.
1. 서론 ᄋ
ᅴ사결정나무는 데이터마이닝에서 널리 사용되는예측모형이며, 모형을구축하는과정을관측할 수 이
ᆻ기 때문에 결과를해석하기 쉽다는장점이 있다 (Kim 등, 2017). 또한, 자료를별도의 전처리 과정을 ᄀ
ᅥ치지 않고 사용할 수 있기 때문에 모형의 사용이 간단하다. 그러나 예측정확도의 측면에서 비교적 최 ᄀ
ᅳᆫ에 개발된모형에 비해 상대적으로 낮다. 이는주어진 설명 변수가 목표 대상에 대해 수직적 혹은수 펴
ᆼ적으로 분류하기 어려울때 자주 발생하는 문제이다. 이런 경우에 분류가 쉽게 이루어지지 않기 때문 ᄋ
ᅦ 더 많은 분류 지점을탐색하게 되어 모형 적합 시간이 늘어나고 모형은더 복잡해지게된다. 결과적 ᄋ
ᅳ로 장점인 설명력과 간결함을 잃게 되고 동시에 좋은성능또한 기대할 수 없게된다.
보
ᆫ 연구에서는 위와 같은 이유로 간단한 구조를 지닌 의사결정나무를 기반으로 유연한 결정 경계를 ᄌ
ᅵ닌 혼합 모형을 제안한다. 사실 두 가지 이상의 모형을 혼합하는 연구는다양하게 진행되어져 왔다 (Kim과 Loh, 2003; Kumar와 Gopal, 2010; Hong 등, 2017). 다만 모형 성장단계에서 변수의 개수 르
ᆯ 선택적으로 가져가는 방식이거나 의사결정나무의 단점을 극복하기 위함이 아닌, 서포트 벡터 머신 (SVM)의 단점을극복하기 위해 연구였다. 혹은변수의 유형에 따라 데이터를나누어 각각에 대해 모형 으
ᆯ적합하였다. 또한, 모형의 혼합을 통해 예측정확도를향상시킨다는 본연구와 유사한 목적을 지닌 ᄃ
ᅡ른 연구에서는 오차 패턴에 따라 다른 모형을 적합하였다 (Cho와 Hur, 2006). 본연구에서는 위의 ᄉ
ᅥᆫ행 연구들과는 조금다른 방식을 채택한다. 단순하게 생각하면 의사결정나무의 마디를 보다 유연한 겨
ᆯ정 경계를가진 통계적 모형인 선형판별분석 모형 (LDA)과 SVM으로 대체하는방법이다. 본연구의
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵ (K1707561)ᄋ ᅪ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ
ᅡ
ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸ(2018R1D1A1B07044479)ᄋ ᅵ ᆸᄂ ᅵᄃ ᅡ.
1
(02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄌ ᅩ ᆯᄋ ᅥ ᆸ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
2절에서는연구에서활용될의사결정나무의 종류, LDA, SVM 그리고 하이브리드 의사결정나무 모형을 ᄉ
ᅩ개한다. 3절에서는다양한 실제 데이터를 통해 모형들의 성능을 비교한다. 예측정확도와 모형의 크 ᄀ
ᅵ를비교하여 제안한 모형의 성능을확인한다. 4절에서는한 가지 사례 연구를 들어 실제 데이터에 적 ᄋ
ᅭ
ᆼ되는방식을살펴본다. 5절에서는 본연구에 대한 결론과 향후 개선 방안에 대해 논의한다.
2. 연구 배경 ᄇ
ᅩᆫ절에서는 연구의 토대가 되는의사결정나무, 선형판별분석, 그리고 서포트 벡터 머신을소개한다.
ᄀ ᅡ
ᆨ 방법론에 대해 작동 원리와 판별 규칙을설명한다. 이 후 본연구에서 제안하는하이브리드 의사결정 ᄂ
ᅡ무 모형의 상세한 과정을소개한다.
2.1. 의사결정나무 ᄋ
ᅴ사결정나무는반복적으로 분류 규칙을생성하여 가장 효과적인 분류 규칙 조합을완성해 나가는 분 ᄉ
ᅥᆨ 기법이다. 본연구에서는여러 의사결정나무 방법론 중에서 CART 알고리즘을사용한다. Brieman ᄃ
ᅳᆼ (1984)에 의해 개발된CART는이진 분할을 통해 지점을 분할하며, 모형 성장 과정에서 지니 계수를 ᄇ
ᅮᆯ순도의 척도로 사용한다. 어떤 주어진 집합에서의 지니 계수는다음과 같이 계산한다.
Gini(S) =
m
X
i=1
pi(1 − pi). (2.1) ᄋ
ᅵ때 분류의 대상은 m개의 클래스로 이루어졌고 pi는주어진 집합 내 각 클래스의 비율이다. S는주 ᄋ
ᅥ진 집합에서 분류를하게될부분집합의 정보이다. 모든 분할 지점 중에서 불순도를가장 크게 감소시 ᄏ
ᅵ는지점을최적의 분할 기준으로 선택한다. 즉,다음의 함수를최대화 하는지점을선택한다.
△i(s, t) = i(t) − [pL× i(tL) + pR× i(tR)]. (2.2) ᄋ
ᅵ때 i(t)는현재 노드 t의 불순도 함수다. pL과 pR은설명 변수 내의 s라는지점을기준으로 분류한 ᄋ
ᅵ후, 상위 노드 t 대비 두 자식노드의 비율을나타낸다. i(tL)과 i(tR)은 s라는지점을기준으로 분류한 ᄋ
ᅵ후 각 자식노드의 불순도 함수다. 결과적으로 △i(s, t)는주어진 상위 노드 t에서 지점 혹은조합 s를 ᄉ
ᅥᆫ택함으로써 감소시킬 수 있는 불순도의 변화량이라고 할 수 있다. 이러한 과정을재귀적으로 반복하 ᄋ
ᅧ 최하위 마디에 속한 자료의 수가 미리 지정한 최솟값에 도달하면 분류를 중단하게 된다. 최하위 마 ᄃ
ᅵ에 속하게될자료의 수를자료의 크기에 비해 지나치게 작게 지정할 경우, 최종모형이 과대적합하게 되
ᆯ가능성이 높다. 이러한 경우에 불필요하게 성장된자식 마디를제거하는가지치기 과정을거치게된 ᄃ
ᅡ. 본연구에서는가지치기 과정을거치지 않는대신, 최하위 마디에 속하게될자료의 크기를제한하 ᄋ
ᅧ 모형이 지나치게 크게 성장되는것을방지한다.
2.2. 선형판별분석 (Linear discriminant analysis) ᄉ
ᅥᆫ형판별분석은 목표 대상의 클래스를구분할 수 있는판별식을도출하여 분류하고 예측하는 분석 기 버
ᆸ 중하나다. 주어진 설명 변수의 선형 조합으로 최적의 결정 경계를형성한다. 클래스 간의 거리를최 ᄃ
ᅢ화 시키는방향으로 결정 경계를형성하게 되는데, 이는 곧 클래스 간의 분산을최대화 하는방법으로 ᄀ
ᅱ결된다. 선형판별분석은 Fisher (1936)의 연구에서 소개된 선형 판별 개념을확장시킨 것으로, 다양 ᄒ
ᅡᆫ 분야에서 널리 사용되고 있다.