2005, Vol. 16, No. 1, pp. 41∼50
Development of Discriminant Model of PIH Pregnant using Decision Tree 1)
Young-Sun Park 2) ․ Hang-Suk Choi 3) Kyung-Joon Cha 4) ․ Moon-Il Park 5)
Abstract
The various methods have been studied to develop discriminant model for pregnancy induced hypertension(PIH) as high risk pregnant. In this study, we adapt the approximate entropy which is the non-linear chaotic measuring method. Then, we develop a system to discriminant PIH pregnant using QUEST with S-PLUS.
Keywords : Approximate Entropy, Decision Tree, PIH, QUEST algorithm
1. 서론
현대사회의 발전과 더불어 최근에 다양한 분야에서 의사결정에 관한 문제를 해결하 기 위해 여러 가지 기법들이 모색되고 있다. 그 중에서 1960년대 이후 꾸준히 발전하 여 최근까지 새로운 알고리즘이 개발되고 있는 것이 의사결정나무모형이다.
의사결정나무모형은 분류 또는 예측이 가능하여 분석과정의 설명이 필요한 경우 더 욱 유용하게 사용되는 기법이다. 더욱이, 결과의 용이함과 누구나 쉽게 이해할 수 있 고 설명되어질 수 있어 고객의 의사결정, 신용 점수화(credit scoring), 시장분석 (market analysis) 등과 더불어 다양한 분야에서 이용되고 있다(Frawley 등, 1991).
1) This work was supported by Hanyang University Research Fund, 2003.
2) First Author : Research Professor, Research Institute of Natural Sciences, Hanyang Univ., 17 Haengdang-dong, Seongdong-Gu, Seoul, 133-791, Korea.
E-mail : [email protected]
3) Ph.D student, Dept. of Mathematics, Hanyang Univ., 17 Haengdang-dong, Seongdong-Gu, Seoul, 133-791, Korea.
4) Professor, Dept. of Mathematics, Hanyang Univ., 17 Haengdang-dong, Seongdong-Gu, Seoul, 133-791, Korea.
5) Professor, Dept. of Obstetrics and Gynecology, Hanyang Univ., 17 Haengdang-dong,
Seongdong-Gu, Seoul, 133-791, Korea.
압증(pregnancy induced hypertension; PIH)과 관련된 태아의 판별모형 개발을 위하 여 의사결정나무 모형 중 하나인 QUEST 알고리즘을 활용하였다. 실제로 임신성고혈 압과 관련된 질환인 만성고혈압(chronic hypertensive vascular disease) 및 경증 및 중증 전자간증(preeclampsia) 등은 주요한 모성사망의 원인중 하나로서 Prechtl(1967) 에 의하면 이러한 위험요인이 두 개 이상 동시에 일어나는 경향이 있으며 서로 함께 작용할 때 그 결과를 악화시키는 상승작용을 하고 있다고 하였다.
현재까지 알려진 태아 성장에 미치는 요소로는 자궁 및 태반을 통한 혈류, 태아의 인슐린(insulin), 그리고 포도당 등이 알려져 있으며(Vorherr, 1982), 자궁 및 태반의 순환장애에 기인한 태아의 저산소증이 발육제한태아의 주원인으로 알려져 있다.
그러나 지금까지 태아의 상태를 진단하는 방법으로 산모의 자궁고를 측정하거나, 초음파단층촬영에 의하여 태아의 체중을 측정하는 방법(Neilson 등, 1984; Geirsson 등, 1984) 등이 이용되고 있는데, 이와 같은 방법들은 판별할 수 있는 기준이 불명확 하며, 더욱이 태아 및 산모에게 좋지 않은 영향을 끼칠 수 있는 침습적인 방법으로서 최근까지 이에 대한 많은 연구들이 진행되고 있다. 이에 반하여, 태아의 심박동(fetal heart rate; FHR) 변이도(variability) 분석은 태아 가사상태나 저산소증, 태아산혈 증 으로 인한 중추신경계의 기능저하가 있는 경우로 활용되고 있으며, 이는 비 침습적인 방법으로서 태아의 생체 신호만을 이용하는 기법으로 잘 알려져 있다
.
<그림 1> 임신고혈압증(PIH)과 관련한 병적태아의 진단시스템 흐름도.
이에 본 연구에서는 <그림 1>에서와 같이 HYFM II에서 수집된 자료인 평균태아 심박동수(mean FHR), 태동수(fetal movement; FM), 기록손실도(signal loss; Sloss), FHR 변이도(variability)인 박동간격(mean minute range; MMR)과 진동폭(amplitude;
AMP), 임신주수(gestational age), FHR 증가/감소 횟수(A1515/ D1515) 등의 기본 자
료와 더불어 비선형적인 카오스 정량화 방법인 근사엔트로피(approximate entropy)를
추가변수로 사용하여, 최종적으로 의사결정나무 중 QUEST 알고리즘으로 판별모형을
개발하였다.
2. 태아 심박동 분석시스템과 연구방법
본 절에서는 임신성고혈압증 태아의 판별모형 개발 연구를 위해, 태아 심박동 분석 시스템(FHR monitoring system)과 비선형적 방법인 카오스(chaos) 정량화, 그리고 데 이터마이닝 기법 중 의사결정나무(decision tree)에 대한 소개를 한다.
2.1 태아 심박동 분석시스템
산과영역에서 분만 전에 태아의 상태를 정확히 평가한다는 것은 산모의 산전검사에 서 거의 필수적인 과정이며, 현대 산과학(obstetrics)에서 가장 중요한 과제이다. 그동 안 이러한 목적으로 ‘전자태아심박동-자궁수축 감시법’이 연구되어 왔으며, 외국에서 는 이미 태아심박동(FHR)의 제 변수값의 추출에서 새로운 알고리즘을 적용한 소프트 웨어의 개발과 함께, 컴퓨터를 이용한 객관적인 판정을 시도한 많은 연구들이 있었다 (Dawes 등, 1985; Searle 등, 1988; Park 등, 2001).
현재 분만 전 태아상태평가에 있어서 ‘전자태아심박-자궁수축 감시법’ 중에서도 대 표적인 검사는 비수축성검사(non-stress test; NST)인데, 이러한 검사는 현재 고위험 도 임신에서는 물론, 최근에는 정상임신에서도 광범위하게 이용되고 있다.
이러한 분석은 컴퓨터시스템이 필수적인데, 현재 영국에서 Redman 등 (1993)에 의 해 개발된 ‘옥스퍼드시스템’이 상용화되어있다. 국내에서도 FHR 분석시스템을 개발하 여 사용하고 있는 것이 바로 <그림 2>의 구조를 갖는 Hanyang Fetal Monitoring System(HYFM, 1998)이다(Park 등, 2001). HYFM에서 사용되는 전자태아 심박 자궁 수축감시 장치는 Corometric 115 model(USA)이다.
태아심박동의 각 변수와 각 자료 처리과정으로 우선, 기록손실도(Sloss)의 계산 (Park 등, 2001)이
<그림 2> 태아심박동(FHR) 분석시스템의 하드웨어와 소프트웨어의 구조도
<그림 3> FHR 곡선의 예(left)와 분석시스템 HYFM II의 결과화면(right) 이루어지며, 기록손실로 처리된 자료를 제외한 후 나머지 자료를 이용하여 기본태아 심박동수가 계산 된다. 다음으로, 태아심박동 증가시의 각 조합은 태아심박동의 증가 가 지속된 시간과 증가폭의 4가지 조합으로서 설정한 후 비교한다. 마지막으로 변이 도 계산은 root mean square, coefficient of variation, MMR, AMP 등 네 가지의 변 수로 측정된다(Park 등, 2001).
이렇게 측정된 자료는 <그림 3>에서 보는바와 같이 1999년 1월 2일(filename:
99010201.SKA)에 한양대학교 산부인과에 내원한 산모로서 임신 28주에 NST를 시행 하여 분석한 결과 화면이다.
2.2 근사엔트로피(Approximate Entropy)
카오스 이론은 Poincare(1854∼1912)에 의하여 제기되었으며 자연의 불규칙성 (irregularity), 비예측성(non-prediction) 그리고 복잡성(complexity) 등을 다루며 자연 의 복잡성 속에 숨어있는 보편적 질서구조와 생성원리를 이해하는 분야이다(Freeman 등, 1990).
일반적으로 카오스 정량화 방법에는 불확정성 및 정보이론에 입각한 확률 과정적 엔트로피가 Shanon에 의해 제기되면서 불규칙성과 복잡성 등을 정량화한 근사엔트로 피(approximate entropy; ApEn)가 있고(Pincus, 1992; Davidson 등, 1992), 시간지연 (time delay) 방법을 이용하여 매립 공간(embedding space)에서 시스템의 자취를 재 구성하는 상관차원(correlation dimension)(Packard 등, 1980; Takens, 1980)이 있다.
이밖에 Hurst(1951)에 의해서 제안된 허스트지수와 최근에 Peng 등(1994)에 의해 개 발된 fluctuation 지수 등이 있다.
본 연구에서는 임신성고혈압증 태아의 판별을 위해 비선형적인 지표로 카오스 정량 화 방법 중에서 먼저, 근사엔트로피(ApEn)를 활용하였으며, 근사엔트로피는 다음과 같은 연산방법을 이용한다.
태아심박수의 N 개의 자료점 u( 1), u( 2), …, u( N)이 있다고 하자. 2개의 입력매
개변수인 m 과 r 이 ApEn( m,r,N)을 계산하기 위해 고정한다(여기서 m 은 매립
차원, r 은 상태공간을 1/r 등분으로 나타내는 변수, N 은 전체 자료수).
ApEn을 정의하기 위해 먼저 { u(i)}로부터 x( i) = [ u( i),…,u( i + m - 1)]로 정의 되는 x( i) 벡터를 만든다. 이 벡터는 i 번째 점에서 시작되는 m 개의 연속적인 u 값 을 나타낸다. x( i)와 x( j)사이 거리를 나타내는 d [ x( i),x( j )]는 각 스칼라 성분에 존재하는 최대거리로 정의된다. 이때 x( 1), x( 2), …, x( N - m + 1)을 사용하여
i, j≤N - m + 1 인 i, j 에서
C
mi( r) = { d [ x( i), x( j)] ≤ r 이 되는 x( j)의 개수}
N - m + 1
로 정의하면, C
mi( r)는 관용오차(tolerance) r 내에 m 차원의 기존 벡터의 어떤 형태 가 반복되는 빈도(frequency) 또는 규칙성(regularity)의 확률이 된다. 또한
Φ
m( r, N ) = 1
N - m + 1 ∑
N - m + 1
i = 1
ln C
mi(r)
로 나타내며, 이때 ln 은 자연대수이다. 즉, Φ
m( r, N )은 ln C
mi(r)의 평균으로 정의될 때, 근사 엔트로피 ApEn은 다음과 같이 정의된다.
ApEn( m, r, N) =Φ
m(r, N ) -Φ
m + 1(r, N ), ApEn( m, r) = lim
N→∞