Comparison among Algorithms for Decision Tree based on Sasang Constitutional Clinical Data

(1)

▒ 접수 ▸2011년 6월 30일 수정 ▸ 2011년 7월 27일 채택 ▸ 2011년 8월 3일

▒ 교신저자 이시우, 대전광역시 유성구 전민동 461-24 한국한의학연구원

Tel 042-868-9555 Fax 042-863-9464 E-mail [email protected]

사상체질 임상자료 기반 의사결정나무 생성 알고리즘 비교

진희정

¹

, 이수경

²

, 이시우

¹

1한국한의학연구원, ²원광대학교 한의과대학 한방재활의학과

Comparison among Algorithms for Decision Tree based on Sasang Constitutional Clinical Data

Heejeong Jin

¹

, Su Kyung Lee

²

, Siwoo Lee

¹

1Korea Institute of Oriental Medicine

2Dept. of Oriental Rehabilitation, Wonkwang University School of Oriental Medicine

Objectives : In the clinical field, it is important to understand the factors that have effects on a certain disease or symptom. For this, many researchers apply Data Mining method to the clinical data that they have collected. One of the efficient methods for Data Mining is decision tree induction. Many researchers have studied to find the best split criteria of decision tree; however, various split criteria coexist.

Methods : In this paper, we applied several split criteria(Information Gain, Gini Index, Chi-Square) to Sasang constitutional clinical information and compared each decision tree in order to find optimal split criteria.

Results & Conclusion : We found BMI and body measurement factors are important factors to Sasang constitution by analyzing produced decision trees with different split measures. And the decision tree using information gain had the highest accuracy. However, the decision tree that produced highest accuracy is changed depending on given data.

So, researcher have to try to find proper split criteria for given data by understanding attribute of the given data.

Keywords : Decision Tree, Clinical Information

Ⅰ. 서론

데이터마이닝(Data Mining)은 대용량의 자료들에 서 체계적이고 자동적으로 통계적인 규칙이나 패턴들 을 찾아내는 방법론이다. 1995년 지식발견 및 데이터 마이닝(KDD：Knowledge Discovery and Data Mining) 국제학술대회가 처음 개최된 이후, 현재 데 이터마이닝에 대한 정의는 다양하게 제시되고 있다.

Berry와 Linoff^1-2)는 “데이터마이닝이란 의미 있 는 패턴과 규칙을 발견하기 위해서 자동화되거나 반

자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정이다”라고 정의하였으며, 가트너 그룹³⁾ 의 2004년 발표한 자료에서는 “데이터마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용 하여 데이터 저장소에 저장된 대용량의 데이터를 조 사함으로써 의미 있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이다.”라고 정의하였다. Pieter Adriaans, Dolf Zantinge⁴⁾은 데이터마이닝은 대용량 의 데이타베이스에서 정보 다이아몬드를 탐색하는 것 이라 정의했다. 즉, 데이터로부터 지식을 추출하는 전 과정(Knowledge Discovery in Database)에서 데이 터마이닝은 탐사 단계에 해당된다고 정의하였다. 이 러한 데이터마이닝은 비즈니스 인텔리전스의 일부로 인식되어 경영자와 경영분석가들이 다양한 비즈니스 의사결정 문제를 해결하기 위해 많이 사용되고 있다.

(2)

비즈니스 분야에서 주로 사용되던 데이터마이닝 기 법은 최근 많은 임상연구들을 통한 대용량 데이터를 획득하게 된 의료계에서도 많은 양의 임상자료들의 특성을 분석하기 위해 사용하기 시작하였다. 이에 대 표적인 방법이 의사결정 나무(Decision Tree)이다.

의사결정 나무는 집단의 구분에 널리 사용되며, 임상 자료 분석에 이를 사용할 경우 다양한 임상정보의 판 별 요소를 함께 반영하는 동시에 임상 현장에서의 판 단 과정과 가장 가까운 형태로 결과를 보여줌으로써 결과 해석에 용이한 장점이 있다⁵⁾.

최근 한의학 연구자들 또한 다양한 임상연구를 진 행하면서 한의 임상자료를 생성하고 있으며, 이를 의 사결정나무를 이용하여 분석하려는 시도들이 늘고 있 다. 진희정⁵⁾은 사상체질 임상자료를 의사결정 나무를 이용하여 분석하여, 체질별 유의한 임상 항목들을 찾 아내었으며, 신상훈⁶⁾은 맥파자료를 의사결정 나무를 이용하여 분석하여 체질별 맥파의 유형을 구별하려하 였다. 박은경⁷⁾과 박성식⁸⁾ 또한 체질진단을 하기위한 설문지를 작성하기위하여 의사결정 나무 방법을 이용 하였다. 비단 사상체질 분야뿐만이 아니라 다양한 분 야에서 의사결정 나무 방법론들이 사용되고 있다.

이들 연구자들의 대부분은 의사결정 나무 방법을 사용하기 위하여 통계 패키지인 SAS⁹⁾ 프로그램의 기본 기준인 Chi-Square를 사용하여 트리를 생성하 고 분석하고 있다. 하지만 의사결정 나무를 분석을 수 행하기 위한 다양한 알고리즘들이 개발되어 있으며, 실제 데이터를 분석할 때 하나의 알고리즘을 사용하 여 의사결정 나무를 사용하는 것이 아니라, 연구자가 가지고 있는 자료의 특성에 맞는 알고리즘을 찾아서 의사결정 나무를 생성하고 분석해야한다. 따라서 최 근 분석을 시작한 한의학 자료에 맞는 의사결정 나무 알고리즘을 찾아보고 이를 이용하여 자료를 분석하는 것이 중요하다.

본 논문에서는 의사결정 나무의 주된 알고리즘들에 대해서 소개하고, 사상체질 임상정보를 이들 알고리 즘으로 분석하여 그 결과들을 비교해봄으로써 사상체 질 임상자료 분석에 알맞은 알고리즘들이 어떠한 것 이 있는지를 알아보았다.

Ⅱ. 연구방법

1. 의사결정 나무 알고리즘

의사결정 나무는 데이터마이닝 분석의 대표적인 방 법으로 주어진 데이터를 분류하는 목적으로 사용된 다. 즉, 분류 목표 변수가 범주형인 경우, 각각의 목표 값을 가지는 정보들의 패턴을 찾아서 분류를 하는 것 이다. 따라서 목표변수가 범주형이 아닌 경우 특정 값 을 예측할 수는 없다. 이러한 의사결정 나무의 기법들 에는 다양한 방법들이 존재하며, 현재에도 여러 방법 들이 공존하여 사용되고 있다. 이중 가장 많이 사용되 는 알고리즘은 CHAID, C5.0, CART를 들 수 있다.

C5.0은 J.R. Quinlan이 개발한 ID3의 후속 알고리즘 인 C4.5의 보안된 알고리즘이다. ID3, C.5, C5.0 방법 론은 인공지능 분야에서 개발되어 발전되어 온 방법 론이며, CART, CHAID는 통계학적 방법을 기반으로 개발되어진 방법이다. 이들 방법들은 모두 트리를 만 들어 주어진 정보를 목표 변수에 맞게 분류한다는 점 에서는 모두 비슷하지만, 트리를 확장해 나가는 방법 에서 인공지능 방법인 엔트로피를 사용하거나, 통계 적 방법인 카이스퀘어(chi-square)나 T 검정 등을 사 용한다는 점에서 서로 다르다고 볼 수 있다.

ID3¹⁰⁾는 트리를 분류할 때 엔트로피(entorpy)를 사용하는 방법론으로 정보이득(Information Gain)에 의하여 트리를 확장해 나간다. 정보 이득이란 어떤 속 성을 선택함으로 인해서 데이터를 더 잘 구분하게 되 는 것을 의미하는 것으로 ID3에서는 특정 속성 A에 의해서 트리가 확장된다고 할 때, 상위 노드의 엔트로 피에서 하위 노드의 엔트로피 값을 빼서 그 값을 이용 하여 정보 이득을 계산한다. 엔트로피는 주어진 데이 터 집합의 혼잡도를 의미하는 것으로 주어진 데이터 집합에 포함된 데이터들이 서로 다른 종류들이 많이 섞여있으면 엔트로피가 높고, 같은 종류의 레코드들 이 많이 있으면 엔트로피가 낮아진다. 따라서 정보 이 득이 크다는 것은 선택된 특정 속성 A에 의하여 분류 가 잘 되었다는 것을 뜻하는 것이므로, 정보 이득이 가장 큰 속성을 사용하여 트리를 확장하게 된다.

L.Briemen¹¹⁾는 1984년 이산형 목표변수인 경우

(3)

알고리즘 사용한 프로그램 C4.5 WEKA의 trees.J48 클래스 CART WEKA의 trees.SimpleCart 클래스

CHAID SAS

<Table 1> 3 used decision tree algorithms 불순도(impurity)를 측정하는 지니 지수(Gini Index)를

이용한 CART(Classification and Regression Trees)를 발표하였다. 지니 지수는 이탈리아의 통계학자 Corrado Gini가 발표한 것으로 0~1사이의 값으로 나 타내며, 0에 가까울수록 집합 내 구성원들이 균등하 게 이루어져있음을 나타내며, 값이 커질수록 집합 내 의 구성원들의 불평도가 커짐을 나타낸다. 즉, 지니 계수가 커질수록 다양성(diversity)이 커짐을 나타내 며, CART 알고리즘에서는 선택된 분리 기준 속성에 의하여 분리되는 왼쪽, 오른쪽의 두 자식 노드의 다양 성이 가장 작아지도록 트리의 분리 기준을 결정한다.

2011년 L.Briemen¹²⁾는 RF(Random Forests) 트 리를 A. Cutler와 함께 발표하였다. 이는 여러 개의 의사결정 나무를 생성하여 이들을 합하여 클러스터를 만드는 것이다. 이는 많은 양의 데이터에 대해서 효율 적으로 작동하며, 결측치가 많은 경우에도 안정적으 로 생성할 수 있다.

C4.5¹³⁾는 1993년 J.R. Quinla에 의해 개발되었으며, ID3 알고리즘의 보완된 알고리즘이다. 기존의 ID3 알고 리즘에서 연속형 자료 처리, 결측치 처리, 트리의 간선 (edge)의 수에 대한 가중치 적용, 가지치기(Pruning) 등이 추가되었다. C4.5는 CART와 달리 2진 이상의 분리가 가능하다. 실제C4.5는 분리 기준이 갖는 범주 값의 수만큼 분리를 수행하므로, 분리가 지나치게 많 아지는 경향이 생길 수 있으며, 반면, CART는 2개로 만 분리하므로, 지나치게 단순화 되는 경향이 있다.

CHAID(Chi-square AUTOMATIC Interaction Detectors)는 1964년 J.A. Sonquist와 J.N. Morgan 이 처음 소개하였으며, 1975년 J.A. Hartigan¹⁴⁾에 의 해 구현되어진 오래된 알고리즘이다. 또한 SPSS나 SAS 통계 프로그램에서 구현되어져 사용되는 가장 보편적인 알고리즘이다. 일반적으로 임상연구자들이 임상자료를 이용하여 의사결정 나무를 생성할 때 사 용하는 알고리즘이라 볼 수 있다. 이 알고리즘은 AID(Automatic Interaction Detection System)에 기반을 두며, 목표 변수가 범주형인 경우 카이제곱- 검점을 통하여 분리하며, 연속형인 경우에는 F-검정 을 이용하여 다지 분리를 수행한다. 즉, p-value 값이 가장 작은 분리 기준을 결정하고, 이를 이용하여 자식 마디를 형성시키는 것이다.

2. 다양한 의사결정 나무의 분석

특정연구개발과제(M10643020004-08N4302 -00400)에서 체질임상정보를 수집 중인 10개 대학 병원 및 한방병원에서 수집된 남자 387건에 대한 체질 임상정보를 사용하였다. 사용된 임상정보항목은 전체 121개이며, 연속형의 체형정보 14가지와 성격정보 15가지, 92가지의 소증정보를 가지고 있다. 수집된 대상자에는 태음인 164명, 소음인 89명, 소양인 127 명, 태양인 7명이 포함되어있다. 태양인의 수는 다른 체질에 비하여 분석하기에는 수가 적어 제외하고 380 명을 대상으로 다양한 의사결정 나무를 생성하였다.

본 연구에서는 수집된 체질임상자료의 다양한 의사 결정 나무를 생성하여, 그 결과들을 비교하기 위하여 WEKA(Waikato Environment for Knowledge Analysis)¹⁵⁾와 상용프로그램인 SAS를 사용하였다.

WEKA는 뉴질랜드의 와이카토(Waikato) 대학의 이 안 위튼 교수팀에서 개발한 전세계적으로 가장 유명 한 데이터마이닝 툴로써 Java™ 를 기반으로 개발되 었다. WEKA는 대부분의 상용 데이터마이닝 프로그 램들(SPSS사의 Clementine, SAS사의 E-Miner 등) 이 고가이면서 성능이 좋은 PC에 설치해야하는 단점 을 가진데 비하여, 무료 프로그램이면서 대부분의 상 용프로그램 보다 더 많은 알고리즘들이 포함되어 있 어 연구하는 입장에서는 매우 유용하다. 단, 상용프로 그램과 같은 다양한 결과화면이나 쉽게 사용할 수 있 는 디자인 화면을 제공하지는 못하지만, 오픈소스 프 로그램으로 전세계 연구자들에 의하여 계속 업그레이 드되는 장점을 가지고 있다.

본 연구에서 사용한 알고리즘은 다음과 같다. 가장 많이 사용되는 대표 알고리즘인 C4.5와 CHAID, 그리 고 CART 알고리즘을 사용하였다. <Table 1>은 본 논문에서 사용한 의사결정 나무의 분리 기준 알고리 즘을 나타낸다.

(4)

C4.5 알고리즘을 사용한 의사결정 나무 BMI <= 22.6562

| 8_3 <= 82.1: SE(15/8.0)

| 8_3 > 82.1

| | sym15 = 1: SE (5.0/1.0)

| | sym15 = 2

| | | sym68 = 0

| | | | sym10 != 3: SY (6.0)

| | | | sym10 = 3

| | | sym68 = 1: SE (10.0/1.0)

| | sym15 = 3

| | | sym17 != 3: SE (10.0/1.0)

| | | sym17 = 3

| | | | sym95 = 0

| | | | | sym48 = 2

| | | | | | 8_8 <= 86.7: SY (8.0)

| | | | | | 8_8 > 86.7

| | | | | | | ch7 = 1

| | | | | | | | 5_5 <= 30.6: SY (8.0)

| | | | | | | | 5_5 > 30.6: TE (6.0/2.0)

| | | | sym95 = 1: SY (5.0/2.0) BMI > 22.6562

| 8_1 <= 56.6

| | 8_6 <= 96.7

| | | sym82 = 1

| | | | BMI <= 23.4586: TE (5.0)

| | | | BMI > 23.4586: SY (17.0/3.0)

| | | sym82 = 2

| | | | 8_2 <= 38

| | | | | 8_6 <= 86.3: SY (5.0/2.0)

| | | | | 8_6 > 86.3: SE (5.0)

| | | | 8_2 > 38: SY (8.0/1.0)

| | | sym82 = 3

| | | | ch11 = 1: SE (8.0/2.0)

| | | | ch11 != 1: TE (7.0/2.0)

| | 8_6 > 96.7: TE (6.0)

| 8_1 > 56.6

| | sym67 = 0

| | | 8_7 <= 93.5

| | | | sym28 = 0

| | | | | sym83 = 3

| | | | sym28 = 1: TE (23.0/5.0)

| | | 8_7 > 93.5: TE (94.0/16.0)머

| | sym67 = 1: SY (7.0/2.0)

<Table 2> Decision Tree using C4.5 algorithm

CART 알고리즘을 사용한 의사결정 나무 BMI < 22.65945: SE(65.0/67.0) BMI >= 22.65945

| 5_4 < 30.75

| | ch2=(2): TE(18.0/7.0)

| | ch2!=(2): SY(45.0/32.0)

| 5_4 >= 30.75: TE(106.0/40.0)

<Table 3> Decision Tree using CART algorithm

Ⅲ. 결과

체질확진자 380명의 121개의 체질임상정보를 사 용하여 C4.5, CART, CHAID의 의사결정 나무를 생 성하였다. 트리 생성 시 마지막 노드에 포함될 최소 원소의 수는 5로 통일하였다. 사용한 임상정보는 체 형 14 문항(BMI, 8_1~8_8, 5_1~5_5), 성격 15 문항 (ch1~ch15), 소증 92문항(sym1~sym92)을 사용하 였다(Appendix 1).

<Table 2>는 C4.5를 사용한 의사결정나무의 결과 이다. 표2를 살펴보면, 제일 처음 BMI가 22.6562보 다 작거나 같은 대상자와 큰 대상자로 구분되고, BMI 가 22.6562보다 작거나 같은 대상자에서는 8_3부위 (겨드랑이 둘레: 좌우 겨드랑이를 지나는 수평둘레)가 82.1보다 작거나 같으면, 소음인 체질로 판별된다. 이 때, 소음인은 15명이었으며, 소음인이 아닌 대상자는 8명이었다. 8_3부위가 82.1보다 큰 대상자들은 다시 sym15(음식물 안내려감) 항목의 응답에 따라 다시 분류가 됨을 알 수 있다. 만약 sym15값이 1일 경우에 는 소음인 체질로 판별되며, 이때 소음인은 5명, 소음 인이 아닌 체질은 1명이 있었다. 나머지 트리도 이와 같이 설명할 수 있다. C4.5를 사용한 남성의 체질임상 자료의 구분에서는 가장 중요한 요인이 BMI와 8-3부 위와 8-1부위(이마둘레: 좌우 미간사이의 인당혈을 지나는 수평둘레)이었다.

<Table 3>은 CART를 사용한 의사결정나무의 결 과이다. <Table 2>의 결과를 보면, C4.5의 결과에 비 하여 아주 작은 트리로 표현되어 있음을 알 수 있다.

CART를 사용한 트리에서는 BMI와 5-4(허리너비:

제부 천추혈을 중심으로 좌우측 적백육제까지의 수평 직선 거리), 성격 2번(행동이 빠른 편인가요? 느린 편 인가요?) 문항이 체질을 구분하는데 주요한 항목으로 선택되었다.

<Table 4>는 대부분의 연구자들이 주로 사용하는 CHAIT 알고리즘을 사용한 의사결정나무의 결과이 다. <Table 4>의 트리 상부는 CART와 유사하게 BMI와 성격 2번 항목으로 구분되며, C4.5 알고리즘 에서도 사용된 8-1부위가 주요한 항목으로 나타났다.

세 알고리즘으로 생성된 트리를 살펴보면, 모두 BMI가 가장 상위에 나타남을 알 수 있다. 또한 8-1부 위나 8-3부위, 5-4부위와 같이 체형 항목이 체질을 구분하는데 주요한 요인으로 나타났다. 다양한 분석

(5)

C4.5 알고리즘을 사용한 의사결정 나무 BMI < 22.65945

| ch2 = 1

| | 8_3 < 98: SY(32/27)

| | 8_3 >= 98: TE(3/3)

| ch2 != 1

| | 8_5 < 31.05: SE(35/23)

| | 8_5 >= 31.05: TE(5/1) BMI >= 22.65945

| 8_1 < 56.6

| | 8_6 < 96.7: SY(27/28)

| | 8_6 >= 96.7: TE(6/0)

| 8_1 >= 56.6

| | ch2 = 1: TE(54/49)

| | ch2 != 1: TE(72/14)

<Table 4> Decision Tree using CHAID algorithm

예측 실제 태음 소음 소양 전체

태음 124(76%) 13(15%) 34(27%) 171 소음 19(12%) 65(73%) 48(38%) 132

소양 21(13%) 11(12%) 45(35%) 77

전체 164(100%) 89(100%) 127(100%) 380

<Table 6> Confusion Matrix of Decision Tree using CART

태음 147(90%) 10(11%) 25(20%) 182

소음 7(4%) 72(81%) 11(9%) 90

소양 10(6%) 7(12%) 91(72%) 108

전체 164(100%) 89(100%) 127(100%) 380

<Table 5> Confusion Matrix of Decision Tree using C4.5

태음 140(85%) 11(12%) 54(43%) 155

소음 9(5%) 38(43%) 14(11%) 61

소양 15(9%) 40(45%) 59(46%) 114

전체 164(100%) 89(100%) 127(100%) 380

<Table 7> Confusion Matrix of Decision Tree using CHAID 방법을 사용하였음에도 BMI나 8-1부위와 같이 공통

적으로 나타나는 임상항목들은 목표변수인 사상체질 과 더욱 밀접한 관계가 있음이 다양한 방법에서 나타 난 것이므로, 체질과 연관성이 높은 것이라 볼 수 있 다. 그리고 성격 항목에서는 성격 2번이 CART와 CHAID 트리에서 나타났으며, C4.5에서는 성격 5번 (포기가 빠른가요? 느린가요?)과 7번(평소 활동적인 편인가요? 조용한 편인가요?)이 트리의 말단에 사용 되었다. 소증항목은 C4.5에서는 많이 사용되었지 만,CART와 CHAID에서는 사용되지 않았다.

<Table 5-7>은 각각의 알고리즘들의 혼동 행렬 (confusion matrix)를 나타난다. 혼동 행렬이란 실제 와 예측 간의 관계를 나타내는 행렬 표를 말한다.

C4.5 알고리즘을 사용한 경우에는 81.58%의 정확도 를 보였으며, CART 알고리즘의 경우에는 61.58%, CHAID 알고리즘의 경우에는 62.37% 정확도를 보였 다. C4.5 알고리즘이 CART와 CHAID를 사용한 트리 에 비하여 복잡하고 세분화되어있지만, 약 20% 정도 높은 정확도를 보였다.

Ⅳ. 고찰 및 결론

모든 분야의 방법론들이 그렇듯이 의사결정나무를 생성하는 방법에서도 다양한 방법들이 존재하며, 최 근에도 여러 의사결정 나무를 생성하는 방법들이 공 존하고 있다. 이전 알고리즘들의 취약점을 보완하면 서 발전하여 특정 알고리즘 하나가 주로 사용되는 것 이 아니라 다양한 방법들이 공존하고 있다는 것은 각 기법들 나름대로의 장단점을 가지고 있다는 뜻이 된

다. 따라서 이러한 경우에는 연구자가 자신이 사용하 는 데이터에 맞는 기법을 찾는 것이 중요하다.

본 연구에서는 사상체질 임상정보를 몇 가지 의사 결정 나무 알고리즘을 사용하여 그 결과 트리들을 비 교해봄으로써 사상체질 임상자료 분석에 알맞은 의사 결정 나무 알고리즘을 찾아보려 하였다. 다양한 의사 결정 나무 기법을 사용하여 분석해본 결과, 본 연구에 서 사용한 사상체질 임상자료에 대해서는 태음, 소음, 소양 3가지 체질을 분류하기 위해서는 C4.5 알고리즘 이 가장 높은 정확도를 나타내는 것을 알 수 있었다.

이는 엔트로피의 특성상 각 노드에서 3가지 체질이 섞이지 않도록 하는데 주력을 두어 트리를 생성하며, Chi-Square를 사용하는 CHAID에서는 3가지 체질 정보에서 3가지 모두에서가 아닌 특이하게 차이가 있 는 속성에서 분리되어 트리가 생성됨으로써 2가지 이 상인 목표변수가 있는 체질 임상자료에서는 C4.5가 더욱 더 좋은 성능을 보이는 것으로 생각된다. 하지 만, 의사결정 나무는 사용하는 자료에 따라 그 결과가 확연하게 달라지므로 체질임상자료를 분석할 때 항상 C4.5가 가장 좋은 결과를 낸다고는 볼 수 없다. 또한, 세 가지 의사결정 나무를 분석하여 체형정보에 해당 하는 BMI, 8-1, 8-3, 5-4부위 등이 체질을 구분하는

(6)

데 중요한 요소로 작용함을 알 수 있었다. 이를 통하 여, 하나의 기준을 통한 의사결정 나무를 사용하는 것 보다는 몇 가지 알고리즘들을 함께 사용하여 공통적 으로 나타나는 중요한 임상 정보를 찾는 것도 좋은 방 법이 될 수 있음을 알 수 있었다.

연구자가 다양한 기법들 중에서 자신에게 맞는 방 법을 선택할 때에는 그 기법을 사용할 수 있는 데이터 집합의 크기, 연구자가 이미 알고 있는 데이터의 패 턴, 그리고 각 기법들이 요구하는 기본 가정들이 모두 부합해야한다. 또한 수집된 자료들은 모두 어느 정도 의 잡음을 가지기 마련이며, 이러한 잡음들에 얼마나 민감한 기법인가, 또는 자신의 데이터가 특수성을 가 지고 있는지 등을 파악하는 것이 중요하다. 따라서 어 떠한 방법을 사용하여 데이터를 분석할 것인지에 앞 서 다양한 방법으로 기초 분석을 진행하고 그 결과를 비교함으로써 자신의 데이터에 맞는 기법을 선택할 수 있으리라본다.

감사의 글

이 논문은 정부(교육과학기술부)의 재원으로 한국연구 재단의 지원을 받아 수행된 연구임(No.20100020618).

참고문헌

1) Michael J. Berry, Gordon Linoff, Data Mining Techniques: For Marketing, Sales, and Customer Support, John Wiley & Sons,Inc, New York, USA:1997

2) Michael J. Berry, Gordon Linoff, Data Mining Techniques and Algorithms, John Wiley &

Sons,Inc, New York, USA:2000 3) Gartner, www.gartner.com/

4) Pieter Adriaans, Dolf Zantinge, Data Mining,

Addison-Wesley:1996

5) 진희정, 김명근, 김종열, 사상체질 임상정보 분석을 위한 웹 기반의 의사결정 나무 프로그램 개발. 한국 한의학연구원논문집, 2008:14(3):81-87.

6) 신상훈, 김종열, 맥파를 이용한 사상체질의 진단에 있어서 분류방법에 따른 진단의 정확도 비교, 한국콘 텐츠학회논문지, 2009:9(10):1-499

7) 박은경, 이영섭, 박성식, 의사결정나무법을 이용한 체질 진단에 관한 연구, 사상체질의학회, 2001:13(2):

144-155

8) 박성식, 최재영, 의사결정나무법을 이용한 설문지의 응답특성에 대한 임상적 검토, 사상체질의학회, 2003:15(3):177=186

9) SAS, http://www.sas.com

10) J. R. Quinlan, Induction of Decision Trees. Mach.

Learn. 1986

11) Leo Breiman, Classification and Regression Trees,

CHAPMAN& HALL,1984

12) Leo Breiman, Random Forests, Machine Learning, 2001:45(1):5–32.

13) J.R. Quinlan, C4.5: Programs for Machine Learning.

Morgan Kaufmann Publishers,1993

14) J.A. Hartigan, Clustering Algorithms, New York - Wiley, 1975

15) WEKA, http://www.cs.waikato.ac.nz/ml/weka/

(7)

no. 임상항목 트리에 사용한 약어 no. 임상항목 트리에 사용한 약어

1 BMI BMI 62 땀_없음 sym33

2 8_1 8_1 63 땀_밤에식은땀 sym34

3 8_2 8_2 64 땀_낮에식은땀 sym35

4 8_3 8_3 65 땀_식사시땀남 sym36

5 8_4 8_4 66 대변습관 sym37

6 8_5 8_5 67 대변시간 sym40

7 8_6 8_6 68 대변시간(분) sym41

8 8_7 8_7 69 대변굵기 sym47

9 8_8 8_8 70 대변굳기 sym48

10 5_1 5_1 71 대변양상 sym49

11 5_2 5_2 72 대변모양 sym50

12 5_3 5_3 73 대변시원 sym51

13 5_4 5_4 74 대변통증 sym52

14 5_5 5_5 75 묽은변 sym53

15 성격_대범_섬세 ch1 76 딱딱한변 sym54

16 성격_행동빠름_행동느림 ch2 77 배변못한날 sym55

17 성격_적극_소극 ch3 78 하복부통증 sym56

18 성격_직접_간접 ch4 79 복부팽창 sym57

19 성격_포기빠름_포기느림 ch5 80 복부불쾌감 sym58

20 성격_외향_내성 ch6 81 배변시긴박감 sym59

21 성격_동적_정적 ch7 82 배변후잔변감 sym60

22 성격_쉽게_어렵게 ch8 83 소변횟수(회) sym61

23 성격_남성적_여성적 ch9 84 소변야간횟수(회) sym62

24 성격_참을성부족_잘참음 ch10 85 소변세기 sym63

25 성격_큰편_적은편 ch11 86 소변_탁하다 sym64

26 성격_잘드러냄_안드러냄 ch12 87 소변_색이맑다 sym65

27 성격_잘표현_표현안하는편 ch13 88 소변_노랗다 sym66

28 성격_가끔흥분_이성적 ch14 89 소변_붉다 sym67

29 성격_덜렁_꼼꼼 ch15 90 소변_거품뇨 sym68

30 식사규칙적 sym1 91 소변_통증 sym69

31 식사횟수(회) sym2 92 소변_자주봄 sym70

32 식사량 sym3 93 소변_시작하기힘듦 sym71

33 식사속도 sym4 94 소변_잔뇨감 sym72

34 식사시간(분) sym5 95 소변_요실금 sym73

35 소화여부 sym6 96 한열 민감도 sym74

36 소화불편 sym7 97 한열_손 sym75

37 소화입맛 sym8 98 한열_발 sym76

38 체함 sym9 99 한열_배 sym77

39 토함 sym10 100 한열증상_1 sym78

40 울렁거림 sym11 101 한열증상_2 sym79

41 허기짐 sym12 102 한열증상_3 sym80

42 트림 sym13 103 한열증상_4 sym81

43 속쓰림 sym14 104 한열증상_5 sym82

44 음식물안내려감 sym15 105 한열증상_6 sym83

45 메스꺼움 sym16 106 한열증상_7 sym84

46 복통 sym17 107 한열증상_8 sym85

47 헛배부름 sym18 108 한열증상_9 sym86

48 땀정도 sym19 109 한열증상_10 sym87

49 땀_더울때 sym20 110 한열증상_11 sym88

50 땀_운동할때 sym21 111 한열증상_12 sym89

51 땀_긴장할때 sym22 112 음수정도 sym90

52 땀_일상생활 sym23 113 음수양(잔) sym91

53 땀기분 sym24 114 음수온도 sym92

54 땀_머리와얼굴 sym25 115 수면꿈 sym93

55 땀_목 sym26 116 수면_잘잠 sym94

56 땀_가슴과겨드랑이 sym27 117 수면_잠들기힘듬 sym95

57 땀_등 sym28 118 수면_잠을잘깸 sym96

58 땀_손 sym29 119 수면_낮에자주잠 sym97

59 땀_발 sym30 120 수면시간(시간) sym98

60 땀_사타구니 sym31 121 수면질 sym99

61 땀_전체 sym32