• 검색 결과가 없습니다.

Development of The Irregular Radial Pulse Detection Algorithm Based on Statistical Learning Model

N/A
N/A
Protected

Academic year: 2021

Share "Development of The Irregular Radial Pulse Detection Algorithm Based on Statistical Learning Model"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

학 술 논 문

185

통계적 학습 모형에 기반한 불규칙 맥파 검출 알고리즘 개발

배장한 · 장준수 · 구본초*

한국한의학연구원

Development of The Irregular Radial Pulse Detection Algorithm Based on Statistical Learning Model

Jang-Han Bae, Jun-Su Jang and Boncho Ku*

Korea Institute of Oriental Medicine

(Manuscript received 11 September 2020 ; revised 23 October 2020 ; accepted 23 October 2020)

Abstract: Arrhythmia is basically diagnosed with the electrocardiogram (ECG) signal, however, ECG is difficult to measure and it requires expert help in analyzing the signal. On the other hand, the radial pulse can be measured with easy and uncomplicated way in daily life, and could be suitable bio-signal for the recent untact paradigm and extensible signal for diagnosis of Korean medicine based on pulse pattern. In this study, we developed an irregular radial pulse detec- tion algorithm based on a learning model and considered its applicability as arrhythmia screening. A total of 1432 pulse waves including irregular pulse data were used in the experiment. Three data sets were prepared with minimal pre- processing to avoid the heuristic feature extraction. As classification algorithms, elastic net logistic regression, random forest, and extreme gradient boosting were applied to each data set and the irregular pulse detection performances were estimated using area under the receiver operating characteristic curve based on a 10-fold cross-validation. The extreme gradient boosting method showed the superior performance than others and found that the classification accuracy reached 99.7%. The results confirmed that the proposed algorithm could be used for arrhythmia screening.

To make a fusion technology integrating western and Korean medicine, arrhythmia subtype classification from the perspective of Korean medicine will be needed for future research.

Key words: Irregular radial pulse, Arrhythmia, Statistical learning model

I. 서 론

심장의 리듬은 정상 혹은 비정상일 수 있는데 부정맥은 정상적인 과정과 다르게 생성되고 전달되는 병적인 성격을 가진 심장 리듬을 통칭한다[1]. 부정맥은 반드시 병적인 과 정을 의미하는 것은 아니지만 다양한 심혈관질환의 위험인 자가 되기 때문에 조기 진단이 중요하며, 부정맥 관련 진단 알고리즘 및 임상 연구가 활발히 진행되고 있다[2-4].

부정맥은 심전도(ECG) 신호를 기본으로 진단한다. 심전

도를 통해 심장의 리듬이 예상보다 일찍 발생하는 조기 박 동군(premature complex) 이나 늦게 발생하는 이탈 박동 군(escape complex), 동방결절에서 정상적으로 기원한 박 동군에서 불규칙성이 다양하게 일어나는 동부정맥(sinus arrhythmia) 등 다양한 부정맥을 진단함으로써 심장의 기 능을 정밀하게 분석하거나 심장질환을 진단할 수 있다[1].

하지만 심전도는 여러 개의 전극을 기반으로 정확한 유도 위치를 알아야 하기 때문에 측정이 복잡하고, 심전도 신호의 분 석 및 해석에 전문가의 도움이 필요하며, 대부분 병원에서 검사가 이루어지기 때문에 일상에서 측정하기 어려운 한계 가 있다[5].

부정맥은 그 유형에 따라 자주 나타나는 경우도 있지만 가끔씩 나타나는 경우에는 오랜 시간 동안 관찰을 해야 알 수 있기 때문에, 일상 생활에서 간편하게 주기적으로 측정 할 수 있는지의 여부는 매우 중요하다. 이러한 면에서 용적

Corresponding Author : Boncho Ku

1672, Yuseong-daero, Yuseong-gu, Daejeon, Republic of Korea Tel: +82-42-868-9589

E-mail: [email protected]

본 연구는 한국한의학연구원 “AI 한의사 개발을 위한 임상 빅데이터 수집 및 서비스 플랫폼 구축(KSN2012110)” 과제의 지원을 받아 수행하였음.

(2)

186

맥파(PPG) 나 맥파(radial pulse) 는 부정맥의 위험성을 손 쉽게 알려줄 수 있는 부정맥 스크리닝용 생체 신호로 적합 하다. 용적맥파는 손목이나 손가락을 통해 간편하게 측정할 수 있기 때문에 최근 활발하게 연구되고 있는 스마트 와치나 반지 등의 스마트 헬스케어 기기에 쉽게 적용할 수 있으며[6-8], 맥파의 경우도 사용 편의성과 소형화 기반으로 간편하게 측 정할 수 있는 맥파 측정장치들이 개발되고 있다[9]. 두 신호 모 두 병원에 방문하지 않고 일상 생활에서 주기적으로 측정이 가능하며, 신호의 분석과 해석이 프로그램을 통해 간편하게 행해질 수 있기 때문에 최근의 비대면 진료 패러다임에도 적합한 신호이다.

특히 맥파는 한의학적 진단에도 추가적인 활용이 가능한 확장성 있는 생체 신호이다. 한의학에서는 요골동맥에서 박 동하는 맥파의 특징을 범주화하여 맥상(pulse pattern) 으로 분 류한 후 맥진을 하게 되는데, 기본적으로 맥파가 느리게 박 동하면 지맥, 빠르게 박동하면 삭맥으로 진단한다. 또한 느 리게 박동하면서 불규칙한 맥파의 간격을 가지면 결맥, 빠 르게 박동하면서 불규칙한 맥파의 간격을 가지면 촉맥, 불 규칙한 정도가 규칙적으로 나타나면 대맥으로 진단하고 이를 바탕으로 생리학적 진단과 처방을 하게 된다[10,11]. 결맥과 촉맥은 분당 60회 이하의 속도로 박동하는 동서맥(Sinus Bradycardia) 과 분당 100회 이상의 속도로 박동하는 동빈맥(Sinus Tachycardia), 어떠한 규칙성도 찾을 수 없는 심방세동(Atrial fibrillation) 등을 포괄하는 불규칙적으로 불규칙한 리듬(Irregularly Irregular Rhythms) 의 부정맥과 연관 지을 수 있고, 대맥은 특정 순 간 불규칙한 리듬이 나타나지만 본래의 정상 리듬은 변화되 지 않는 규칙적으로 불규칙한 리듬(Regularly Irregular Rhythms) 의 부정맥과 연관 지을 수 있다. 부정맥의 한방 치료는 부정맥에 따른 수반 증상을 토대로 하는데 일반적으로 그 원인을 어혈이나 혈기부족 심장의 화에 있다고 본다[12].

맥파 리듬의 한의학적 해석에는 조심스러운 접근과 추가적 인 임상 연구가 필요한 실정이지만, 이와 같이 맥파는 현대 의학 및 한의학 관점에서의 다양한 활용성을 내재하고 있기 때문에 앞으로의 스마트 헬스케어 시대를 주도할 수 있는 각광받는 생체신호이다.

맥파 분석 연구는 여러 종류의 부정맥을 세밀하게 분석하기 보다는 불규칙한 리듬의 발생 여부 자체를 간편하게 선제적 으로 알려주는 스크리닝 목적의 연구가 선행되어야 한다. 이를 위해서는 기본적인 진단 알고리즘의 정확도를 높이는 것이 중요하다. 기존의 전통적인 연구에서는 심전도의 경우 P파나 QRS 군을 검출하고 용적맥파의 경우 시작점과 피크점을 검 출한 후 특징점의 간격이나 규칙성을 분석하였다[3-5,10,13].

하지만 대부분의 부정맥 신호는 규칙적이지 않기 때문에, 일 괄적인 특징점 검출 알고리즘은 그 정확성에 한계가 있을 수 밖에 없으며 이는 부정확한 진단으로 이어지는 문제가

있었다.

이를 보완하기 위해 최근에는 심전도 신호에 1D 합성곱 신경망(Convolutional Neural Networks, CNN)[14] 및 스펙트로그램 기반의 2D 합성곱 신경망[15], 순환 신경망 (Recurrent Neural Networks, RNN)[16] 등의 딥러닝을 적용하여 특징 추출, 특징 선택 및 분류 모델 생성 등 일련의 과정을 하나의 네트워크 구조로 통합한 end-to-end 학습 기 반의 부정맥 검출 연구가 수행되고 있다. 용적맥파 기반의 연구에서도 상용화된 스마트 와치에서 측정한 데이터에 비 지도학습 신경망을 적용하거나[7], 움직임과 잡음 검출 알고 리즘을 이용해 심방세동 검출 성능을 향상시키는 방법들이 적용된 바 있으며[6], 박동 간격 계산을 위해 특징점 검출 과 정을 수행하는 경우가 많다.

이에 비해 맥파를 기반으로 하는 부정맥 연구는 거의 이 루어지지 않았다. 기존에 한의학적 불규칙 맥파인 대맥과 결 맥, 촉맥을 구분하기 위해 맥파 박동의 연속적인 순서를 기 반으로 4개의 파라미터를 계산하고 Lempel-Ziv complexity 분 석을 수행하여 97.1%의 분류 정확도를 보인 연구와[10], 5 개의 연속된 맥파 간격의 표준편차를 이용해 규칙을 생성하고 대맥과 결맥을 91.8% 정확도로 분류한 연구들이 진행되었 지만[11], 이들 선행연구 역시 적은 데이터를 대상으로 특 징점을 검출하는 과정이 요구됐고, 데이터 학습 기반이 아 닌 파라미터 계산을 기반으로 한 연구라는 한계점이 있었다.

따라서 특징점을 검출하지 않고 원신호에 최소한의 전처리 만을 수행한 학습 모형 기반의 불규칙 리듬 검출 연구는 다 양한 유형의 부정맥을 진단하기 위한 필수적인 기초 연구이며, 나아가 부정맥 진단의 정확성을 높이는 맥파 기반 딥러닝 분석의 첫걸음을 내딛는 의미가 있다. 본 연구에서는 간편 하게 측정 가능한 맥파 신호를 대상으로 학습 모형에 기반 한 불규칙 맥파 검출 알고리즘을 개발하고 부정맥 스크리닝 으로서의 적용 가능성을 고찰해보고자 한다.

II. 연구 방법

1. 맥파 신호 측정 및 수집

본 연구는 한국한의학연구원에서 “혈류역학과 맥 진단학을

융합한 맞춤의료 맥 분석 시스템 개발” 과제의 일환으로 수집된

요골동맥 맥파 신호를 사용하였다. 과제 수행 중 진행한 모든

임상연구는 IRB 승인(KOMCIRB-2014-70, KOMCIRB-

150622-HR-021, KOMCIRB-150818-HR-030, 2015/8,

KOMCIRB-160620-HR-031, 2016/8-1) 을 받았으며, 질병

관리본부 임상연구정보서비스(Clinical Research Information

Service, CRIS) 에 등록 되었다. 각 임상연구에 참여한 모든 대

상자는 헬싱키 선언에 입각하여 동의서를 작성하였으며 맥파 데

이터가 연구용으로 사용되는 것에 동의하였다. 맥파 신호는

(3)

187 신뢰성과 안전성이 확보된 한국한의학연구원에서 개발한 맥진기

(KIOM-PAS ver. 2.0) 를 사용해 측정하였다[17,18]. 1,000 Hz의 샘플링 속도로 측정된 6채널 압저항 센서 데이터 중 가장 큰

압맥파를 가진 채널의 데이터를 선정하였으며, 연속가압방식 프로토콜로 측정한 맥파 구간 중 일정가압으로 60초 동안 측 정한 구간을 분석에 사용하였다[17]. 최종 분석에는 각 임상 시험 대조군에서 수집한 1,363 개의 요골동맥 맥파 신호와 69 개의 불규칙 맥파 신호가 사용되었다. 맥파 분석 전문가는 피험자의 움직임이나 측정 노이즈 등을 모두 제거한 전처리 맥파 신호를 대상으로 맥파의 불규칙 리듬을 관찰하여 불규칙 여부를 라벨링 하였으며, 일반적인 맥파 신호와 불규칙 맥파 신호의 유형별 예시는 그림 1에 나타내었다. 이때 심전도 신호를 통해서만 관찰 가능한 부정맥 유형의 경우는 연구 범위에 포함시키지 않았다.

2. 맥파 데이터의 최소 전처리

본 연구에서는 총 60,000 개의 포인트로 구성된 시계열 맥파 데이터를 원 신호(raw data)로 획득했다. 그 후, 맥파 데이터의 시작점과 피크점 등의 휴리스틱 특징(heuristic feature)을 추출하지 않고 전처리 과정을 최소화한 총 3가지의 입력 데 이터 셋을 구성하여 분석을 진행했다. 첫 번째 데이터 셋은 시간 영역 신호에 대한 각 분류 모형의 최적화 계산 효율을 위 해 대역제한보간(band-limited interpolation) 방법 기반의 리샘플링(resampling)을 적용해[19], 총 6,000 개의 데이터

그림 1. 일반적인 맥파 신호와 불규칙 맥파 신호의 유형별 예시

Fig. 1. Examples of normal and irregular radial pulse wave signals by type

그림 2. 전처리 과정을 최소화한 세 가지 데이터 셋 예시

Fig. 2. A sampled case for illustrating three datasets after the minimal preprocessing

(4)

188

포인트로 축소한 신호를 입력 변수로 사용했다. 두 번째 데이 터 셋은 맥파 시간 영역 원 신호에 고속 이산 푸리에 변환(fast discrete Fourier transformation, FFT) 을 적용해 획득한 주파 수 영역 스펙트럼을 입력 변수로 사용했으며, 세 번째 데이터 셋은 두 번째 데이터 셋에서 획득한 스펙트럼의 잡음 제거를 위해 사인-가중치 이동평균(sine-weighted moving average, SWMA) 을 적용한 결과를 입력 변수로 사용했다. 선행 연구에 따르면, 맥파 신호의 경우 10 Hz 이하에서 99%의 스펙트럼 에너지가 존재함이 알려져 있고[20], 맥진기의 하드웨어 및 소프트웨어 필 터도 30 Hz 이하로 설정되어 있다. 따라서, 본 연구에서는 푸리에 변환을 수행하여 계산된 500 Hz 까지의 모든 주파수 영 역 대신 0~30 Hz 영역에 해당하는 1,800개의 주파수 Hz 성분만을 입력 변수로 사용했다. 그림 2는 동일 맥파 데이터에서 구성한 세 가지 데이터 셋의 특징을 나타낸다.

3. 학습 모형 알고리즘 적용 및 평가

불규칙 맥파 검출을 위한 학습 알고리즘으로 통계적 학습 모형(statistical learning model)을 본 연구에 적용했다.

평가를 위한 데이터 셋은 모두 표본의 크기보다 변수(데이터 포 인트 혹은 주파수 Hz 성분)의 개수가 많기 때문에 고전적 통계모형을 적용하지 않고, 고차원 데이터에 적용 가능한 탄 성망 로지스틱 회귀모형(elastic net logistic regression model, EN-LRM)[21], 트리 계열 앙상블 모형인 랜덤 포 레스트(random forest, RF)[22]와 극단 그레디언트 부스팅 (extreme gradient boosting machine, XGBM)[23] 을 평가 모형으로 고려했다. 이때, 모든 데이터 셋은 각 입력변 수의 변동성을 균일하게 맞추기 위해 주파수 Hz 성분 별로 최소-최대 정규화(min-max normalization)를 하여 데이터 값을 0 에서 1 사이 값으로 재조정했다. 훈련에 사용한 입력 데 이터 행렬을 X

n×p

= [ x

1

,..., x

p

] 라고 정의하고(x

j

= [ x

1

, ..., x

n

]

T

, j = 1,...p, p = 총 Hz 성분 개수), 벡터 x

j

의 최소값과 최대값을 각각 max(x

j

), mix(x

j

) 라고 하면 x

j

를 최소-최대 정규화로 변 환한 z

j

는 식 (1)과 같다.

(1)

(1) 탄성망 로지스틱 회귀모형

로지스틱 회귀모형은 전통적으로 두 집단 분류 모형으로 광범위하게 활용되고 있는데, 그 중 벌점화 회귀 모형은 추 정하고자 하는 회귀 계수에 대한 목적 함수에 특별한 형태 의 벌점 함수(penalty function)를 부여하여 회귀 계수의 과 대 추정을 방지하고 차원의 제약 없이 회귀식을 추정하는 방법이다. 탄성망(elastic net)은 목적 함수에 제약을 주기 위한 벌점 함수의 한 종류이다. n 개의 표본과 p 개의 변수 ( 데이터 포인트 혹은 주파수 Hz 성분)로 구성된 데이터 행렬

X = [x

1

, ..., x

p

] 이라고 정의하고 (x

j

= [ x

1

, ..., x

n

]

T

, j = 1, ..., p), 0 또는 1의 값을 갖는 n×1 벡터를 반응변수 y = [y

1

, ..., y

n

]

T

라고 할 때, EN-LRM의 계수 추정을 위한 목적함수는 식 (2) 와 같다.

{

L

(β|X,y) + P

λ

(β)} (2) 여기서 로지스틱 회귀모형에서 일반적으로 쓰이는 목적 함수인 우도 함수

L

( β|X,y)와 탄성망 벌점 함수 P

λ

( β)는 각 각 식 (3), (4)과 같이 정의된다.

L

( β|X,y) =

(3)

(4)

P

λ

( β)에서 α ≥0는 벌점 함수의 조율 모수(tuning parameter) 이고 α(0 ≤ α ≤ 1)와 λ 값의 조정을 통해 능형회귀모형(ridge regression model) 과 LASSO(least absolute shrinkage and selection operator) 의 벌점 함수를 혼합한 축소된 회 귀계수를 얻을 수 있다. 본 연구에서 탄성망 로지스틱 회귀 모형은 R 소프트웨어에서 제공하는 glmnet 패키지를 사용해 구현했으며[24], λ는 exp(log20)에서 exp(log0.0001) 까지 총 100 개의 값과 α는 0에서 1까지 0.1 단위로 11개 의 값에 대한 조합으로 생성한 격자(grid)를 이용해 각 모수의 조합 에 대한 분류 모형의 성능을 평가했다.

(2) 랜덤 포레스트

RF 모형은 기존 의사결정나무(decision tree)의 단점을 보완하기 위해 모형 훈련 과정에서 무작위성을 부여해 예측 변동성(variability) 및 과적합(overfitting)을 줄이기 위해 고안된 알고리즘이다[25]. 주어진 훈련 데이터에서 붓스트 랩(boostrap) 샘플링을 통해 중복을 허용한 n개의 표본을 반복적으로 추출해 각 표집 데이터 별로 학습 모형을 생성 후 독립적인 다수의 나무모형으로 추정한 예측값(또는 예측 집단)들에 대해 평균 또는 투표(vote)를 통해 다수로 선택 된 예측 집단을 최종 예측결과로 출력한다. 이렇게 다수의 모형으로부터 얻은 예측결과를 활용한 최종 앙상블 방법을 배깅(bagging, bootstrap aggregating)이라고 한다. 본 연 구에서는 RF를 적용하기 위해 R 소프트웨어의 ranger 패 키지를 활용했으며[26], 모형 적합 및 평가를 위해 고려한 조율 모수는 표 1과 같다.

(3) 극단 그레디언트 부스팅

부스팅(boosting)은 여러 개의 성능이 좋지 않은 모형을 z

j

x

j

– min x ( )

j

max x ( ) min x

j

– ( )

j

---

=

βˆ

elastic

= arg min

y

i

logπ x ( ) 1 y

i

+ ( –

i

)log 1 π x ( – ( )

i

)

{ }

i 1=

n

π x ( )

i

x

j

′β 1 + exp ( x

j

′β ) ---

=

P

λ

( ) λ 1 α β ( – ) β

j2 j 1=

p

+ α β

j 1=p j

⎩ ⎭

⎨ ⎬

⎧ ⎫

=

(5)

189 결합해 최종 모형의 예측 성능을 향상시키는 앙상블 방법의

한 종류이다[27]. 부스팅은 여러 개의 RF와 유사하지만 두 방법의 가장 큰 차이점은 RF에서 배깅을 위해 생성한 붓스 트랩 표집 데이터로 얻은 의사결정나무는 모두 독립적인 반 면, 부스팅의 경우 첫 번째 모형에서 오차값이 크거나 오분 류된 케이스에 가중치를 부여해 다음 모형 구축에 순차적 (sequential) 으로 활용하는데 있다. 그레디언트 부스팅 (gradient boosting) 은 미분 가능한 손실함수(loss function)의 음수 그레디언트(negative gradient) 또는 잔차(residual)를 이 용해 순차적으로 모형을 구축해 결합하는 방법이다. 본 연구에 서 정상 맥파와 불규칙 맥파에 적용하여 수행한 그레디언트 부스팅의 개념을 그림 3에 나타냈다[28].

그레디언트 부스팅의 단점인 계산의 비효율성을 개선한 XGBM 은 병렬계산 및 분산처리 지원, 그리고 정규화 (regularization) 을 통해 빠른 계산과 과적합을 피할 수 있 는데, 본 연구에서는 R 소프트웨어의 xgboost 패키지에 구 현되어 있는 XGBM 알고리즘을 사용했으며, 손실함수는 로 지스틱 회귀모형 우도함수를 선택하였다[23]. XGBM 최적 화를 위해 초기에 설정한 조율모수들은 표 2와 같으며, 계

산의 효율을 위해 설정한 조율모수 범위 안에서 랜덤 탐색 (random search) 을 통해 조율모수를 최적화 했다.

(4) 불규칙 맥파 가중치 적용

본 연구에서 사용한 전체 1,432 개의 맥파 신호 중 불규칙 맥 파는 69 개(5.0%)로 정상/불규칙 맥파의 분포가 불균형 하다. 이 경우 모형의 전반적인 성능은 좋을 수 있으나, 작은 케이스에 대한 정확도와 민감도 등은 떨어질 수 있다. 이를 보완하기 위한 방법으로 SMOTE(synthetic minority oversampling technique) 또는 소수 케이스(집단)에 가중치를 부여하는 방법이 있다[29].

본 연구에서는 분류모형 구축 시 전체 데이터 셋에서 정상 맥파와 불규칙 맥파 발생 비율의 역수를 각 케이스의 가중 치로 사용했다.

(5) 불규칙 맥파 분류 모형의 성능 검증

본 연구에서 고려한 세 가지 데이터 셋 각각은 불규칙 맥 파군의 비율을 균일하게 유지하면서 각 군의 80%를 훈련집 합(training set), 20%를 검증집합(test set)으로 랜덤하게 분할했다. 최종적으로 1,145 개의 훈련집합(정상 맥파: 1090,

표 1. 랜덤 포레스트 모형의 조율 모수 격자

Table 1. Tuning parameters of random forest in the experiment

Tuning parameter Description Values

num.trees Number of trees in the forest 500

mtry Number (fraction) of randomly drawn variables in each split 0.05, 0.1, 0.15, 0.25, 0.333, 0.4, 0.5, 0.8 min.node.size Number of the minimum observations in a terminal nod 1~20

splitrule Criteria for splitting in the nodes Gini impurity, random

그림 3. 불규칙 맥파 검출을 위한 그레디언트 부스팅 적용 개요도

Fig. 3. Schematic flow chart of the gradient boosting for detecting irregular radial pulse

(6)

190

불규칙 맥파: 55)과 287 개의 검증집합(정상 맥파: 273, 불 규칙 맥파: 14)을 모형 개발 및 평가에 사용했다. 각 분류모형의 최적 조율모수는 10겹 교차검증(10-fold cross-validation)을 기반으로 수신자 조작 특성 곡선 아래 면적(area under the receiver operating characteristic curve, AUROC) 을 계산 하여 선택했다. 최종적으로 선정한 모형의 훈련집합 예측 확 률값을 기반으로 얻은 유덴 지수(Youden index)를 통해 민 감도와 특이도가 최대가 되는 절단값(cut-off value)을 결

정하였고[30], 최종 모형의 세부 평가를 위해 검증집합의 정 확도(accuracy), 민감도(sensitivity), 특이도(specificity) 및 정밀도(precision)를 계산했다.

III. 연구 결과 및 고찰

1. 통계적 학습 모형의 불규칙 맥파 검출 성능

맥파 신호 데이터 셋에서 각 주파수 Hz 성분을 변수로 하여

표 2. 극단 그레디언트 부스팅 모형의 조율 모수 격자

Table 2. Tuning parameters of extreme gradient boosting in the experiment

Tuning parameter Description Values

Booster A structure of booster (tree or regression) gbtree, dart

Eta learning rate: controlling the step of gradient decent 0.05

nrounds Number of repetitions 100

max_depth The maximum depth of tree 3 ~ 10

min_child_weight A criterion of the splitting rule based on a minimum sum of instance weight 1 ~ 10

Subsample A sampling rate of observations 0.5 ~ 1

colsample_bytree Number (fraction) of variables used in a tree 0.5 ~ 1

Gamma A penalty function to the information gain 0 ~ 10

Alpha L1 regularization (equivalent to LASSO penalty) 0 ~ 1

Lambda L2 regularization (equivalent to ridge regression) 0 ~ 1

그림 4. 맥파 데이터 셋 별 입력변수(데이터 포인트 혹은 주파수 Hz 성분)의 정규화 변환값에 대한 정상 및 불규칙 맥파의 평균 프로파일 Fig. 4. Mean profile of normal and irregular radial pulse derived from each dataset after the min-max normalization

(7)

191 최소-최대 정규화 변환한 값의 정상 및 불규칙 맥파 평균 프

로파일을 그림 4에 제시했다. 시간 영역의 첫 번째 데이터 셋에서는 두 집단 간 신호의 차이가 잘 나타나지 않았으나, 주 파수 영역의 데이터 셋에서는 두 집단 간 신호 차이를 육안 으로 확인할 수 있었으며, 특히 세 번째 데이터 셋에서는 두 집단 간의 차이가 상대적으로 명확하게 나타났다. 주파수 영 역 데이터 셋의 경우, 정규화 변환 전에는 일반적으로 높은 주파수에서 작은 파워를 보이지만, 변환 후에는 높은 주파 수에서의 작은 변동도 크게 확대될 수 있기 때문에 상대적으로 큰 파워를 나타냈으며, 1 Hz 이하에서 정상 맥파와 불규칙 맥파의 차이가 두드러지게 나타났다. 기존에 다중목적함수 유전자 알고리즘(multi-objective genetic algorithm)을 이 용한 심장박동 불규칙성 검출 연구에서도 푸리에 변환이 적 용된 바 있지만, 이는 심전도의 특징점을 검출하기 위한 가 이드 역할에 한정되었다[31]. 반면에 본 연구에서는 특징점 검출 과정을 생략하고 푸리에 변환 결과인 주파수 영역 스 펙트럼을 그대로 모형에 입력하여 불규칙 리듬을 판별할 수 있도록 하였다.

이러한 특징을 가지고 있는 세 가지 데이터 셋을 본 연구

에서 고려한 통계적 학습모형의 입력으로 하고 최적 모형을 구성해 훈련 및 검증한 결과는 표 3과 같다. 시간 영역 데 이터 셋의 경우 고려한 모든 학습모형에서 주파수 영역 데 이터 셋에 비해 검출 성능이 낮게 나타났다. 특히 SWMA 를 적용한 주파수 영역 데이터 셋은 모든 모형에서 가장 높은 검출 성능을 나타냈는데, EN-LRM의 경우 검증집합에 대해 정확도 99.0% 민감도 100%, 특이도 98.9%, 정밀도 82.4%로 나타났고, RF 모형의 경우 정확도 99.0%, 민감도 92.9%, 특이도 99.3%, 정밀도 86.7%로 EN-LRM과 비슷한 성능을 보 였다. XGBM은 검증집합에 대해 정확도 99.7%, 민감도 100%, 특이도 99.6%, 정밀도 93.3%를 나타냈다. XGBM과 EN-LRM 의 성능은 AUROC 기준으로 봤을 때는 큰 차이를 보 이지 않았으나 민감도, 특이도, 정밀도 측면에서 봤을 때 EN-LRM보다 성능이 좋게 나타났기 때문에 XGBM으로 도 출한 모형을 최종 분류모형으로 결정했다. XGBM의 검증 집합에 대한 혼동행렬(confusion matrix)은 표 4에 나타냈다.

2. 극단 그레디언트 부스팅 모형

본 연구에서 가장 좋은 성능을 보인 XGBM 모형의 10겹 교

표 3.불규칙 맥파 검출 모형 평가 결과

Table 3. Evaluation results of the irregular radial pulse detection models

Dataset AUROC (train) AUROC (test) Threshold Accuracy Sensitivity Specificity Precision Elastic net + logsitic regression

TD 0.999 0.583 0.598 0.909 0.286 0.941 0.200

FD 1.000 0.910 0.750 0.962 0.571 0.982 0.615

FD + SWMA 1.000 1.000 0.576 0.990 1.000 0.989 0.824

Random forest

TD 1.000 0.621 0.600 0.948 0.000 0.996 0.000

FD 1.000 0.972 0.700 0.958 0.214 0.996 0.750

FD + SWMA 1.000 0.999 0.743 0.990 0.929 0.993 0.867

Extreme gradient boosting

TD 1.000 0.638 0.609 0.944 0.071 0.989 0.250

FD 0.996 0.973 0.498 0.927 0.786 0.934 0.379

FD + SWMA 0.999 0.999 0.674 0.997 1.000 0.996 0.933

The threshold values are calculated by the Youden index based on the ROC analysis for the training set.

표 4. XGBM의 검증집합에 대한 혼동행렬 Table 4. Confusion matrix for the XGBM

Reference (true class)

Training set Test set

Prediction Arrhythmia Normal Arrhythmia Normal

Arrhythmia 54 3 14 1

Normal 1 1087 0 272

(8)

192

차검증 기반 최적 조율모수 도출 결과는 표 5와 같다. 그림 5는 정상과 불규칙 맥파 검증집합 각각에서 랜덤하게 추출 한 3개 표본을 XGBM에 적용 시 예측 확률과 각 표본에서 선택된 상위 10개 변수(주파수 Hz 성분)에 대한 중요도를 나타낸다. 또한 그림 6은 추출한 6개의 표본에서 선택된 모 든 변수들에 대한 중요도의 크기를 색상 그레디언트로 표현한 것으로 특정 변수가 각 표본에서 분류에 얼마나 큰 영향을 주었는지 알 수 있다. 모든 표본에서 공통적으로 18.87 Hz, 11.88 Hz, 25.85 Hz 가 가장 중요한 3가지 변수로 나타났다. 이는 맥파 신호에서 10 Hz 이상의 스펙트럼 에너지는 전체 에 너지의 1% 정도에 불과한 작은 비율을 차지하고 있지만, 10 Hz 이하의 에너지보다 더 많은 생리적 특성을 나타낸다는 기존의 연구내용[32] 및 장기의 손상이나 기능적 이상 환자는

10 Hz 이상에서 스펙트럼 에너지가 증가한다는 연구내용 [33] 등과 관련이 있는 결과이다. 하지만, 특정 주파수 성분 들이 맥파의 어떤 특성과 관련이 있는지는 지금까지의 선행 연구를 통해서도 아직 정확하게 특정할 수 없기 때문에 명 확한 생리적 해석을 위해서는 더 많은 맥파 연구가 수행 되 어야 할 것이다. 또한 모형의 관점에서도 XGBM은 2차원 구조를 가진 데이터 셋에 대한 예측 성능이 높다고 알려져 있으나, 앙상블 기법을 기반으로 하는 모형이기 때문에 전 통적인 모형과는 다르게 그 해석이 용이하지는 않다[34]. 향 후에 최근 제안된 LIME(local interpretable model-agnostic explanation) 기법을 추가적으로 적용한다면, 전체가 아닌 부분적인 개별 예측의 해석을 통해 복잡한 모형의 이해를 높일 수 있을 것으로 사료된다[35].

표 5. XGBM 의 10겹 교차검증 기반 최적 조율모수 도출 결과

Table 5. Optimal tuning parameters determined by 10-fold cross validation of the XGBM

booster max_depth min_child_weight Subsample colsample_bytree Gamma alpha

gbtree 7 4.063 0.587 0.500 5.278 0.204

그림 5. 무작위 추출된 정상 및 불규칙 맥파에 대한 XGBM 변수의 중요도

Fig. 5. XGBM feature importance plot of randomly selected normal and irregular radial pulses

(9)

IV. 결 론 193

본 연구에서는 맥파의 특징점 추출이 필요 없는 최소 전 처리 학습 모형에 기반한 불규칙 맥파 검출 알고리즘을 개 발하여 부정맥 스크리닝으로서의 적용 가능성을 확인하였다.

맥파 신호에 푸리에 변환 및 기초 필터링을 한 후 EN-LRM과 RF, XGBM 을 이용해 불규칙 맥파 검출 성능을 평가한 결과, XGBM 이 정확도 99.7%, 민감도 100.0%, 특이도 99.6%, 정밀도 99.3%로 가장 우수한 성능을 보였다. 이는 일상 생 활에서 간편하게 주기적으로 측정 가능하고 비대면 진료에도 적 합한 맥파 신호가 부정맥 스크리닝에 적용 가능함을 시사하는 결과이며, 맥파를 이용한 딥러닝 기반 부정맥 분석의 시작 점 연구로써 의미가 있다.

다만 본 연구는 심전도가 아닌 맥파의 불규칙 리듬 유무 만으로 기초적인 부정맥 스크리닝이 가능한 지에 대한 예비 연구 성격이었기 때문에, 기존에 심전도의 P파 형태나 QRS 폭, P파와 QRS의 비율 등이 판단 기준으로 알려져 있는 부 정맥의 세부 유형들은 본 연구의 범위에 포함되지 않았고, 임상에서 획득한 불규칙 맥파의 데이터 개수도 정상 맥파에 비해 많지 않았던 한계점으로 인해, 다양한 부정맥 유형을 세분화하여 분석하지는 못하였다. 향후 연구에서는 개발한 알고리즘을 심전도에도 적용해 알고리즘의 확장성을 검증함은 물론, 심전도에서 진단 가능한 부정맥 유형들 중 맥파에서도 동 일하게 진단 가능한 유형들에 대한 심화 연구가 필요하다.

또한 한의학적 개념을 접목하여 부정맥을 결맥, 촉맥, 대맥 등으로 세분화 하고 이의 임상 활용성을 검증한다면, 양한 방을 통합할 수 있는 맥파 신호 기반의 유용한 융합 기술을 개발할 수 있을 것으로 사료된다.

References

[1] Garcia TB, Garcia DJ. Arrhythmia recognition: The art of interpretation. Jones & Bartlett Publishers; 2019.

[2] Song M-H, Lee J, Cho S-P, Lee K-J. SVM classifier for the detection of ventricular fibrillation. Journal of the Institute of Electronics Engineers of Korea SC. 2005;42(5):27-34.

[3] Lee S, Ryu C, Park K-H. Adaptive Detection of Unusual Heartbeat According to R-wave Distortion on ECG Signal.

Journal of The Institute of Electronics Information Engineers.

2014;51(9):200-7.

[4] Cho I-S, Kwon H-S, Kim J-M, Kim S-J. Feature Extraction based on Auto Regressive Modeling and an Premature Con- traction Arrhythmia Classification using Support Vector Machine.

Journal of the Korea Institute of Information and Communi- cation Engineering. 2019;23(2):117-26.

[5] Lee J, Song M-H, Lee K-J. Atrial Fibrillation Waveform Extraction Algorithm for Holter Systems. Journal of the Institute of Electronics Engineers of Korea SC. 2012;49(3):38-46.

[6] Bashar SK, Han D, Hajeb-Mohammadalipour S, Ding E, Whitcomb C, McManus DD, Chon KH. Atrial Fibrillation Detection from Wrist Photoplethysmography Signals Using Smartwatches. Sci Rep. 2019;9: Article ID 15054.

[7] Tison GH, Sanchez JM, Ballinger B, Singh A, Olgin JE, Pletcher MJ, Vittinghoff E, Lee ES, Fan SM, Gladstone RA, Mikell C, Sohoni N, Hsieh J, Marcus GM. Passive Detection of Atrial Fibrillation Using a Commercially Available Smart- watch. JAMA Cardiol. 2018;3(5):409-16.

[8] Sohn K, Dalvin SP, Merchant FM, Kulkarni K, Sana F, Abo- hashem S, Singh JP, Heist EK, Owen C, Isselbacher EM. Utility of a smartphone based system (cvrPhone) to predict short-term arrhythmia susceptibility. 2019;9(1):1-11.

[9] Cho J, Bae J-H, Kim Y, Jun M, Yang T, Jeon Y. Development of Pulse Analysis System Based on Convenience and Com- pactness. Journal of Biomedical Engineering Research. 2017;

38(4):168-74.

[10] Xu L, Zhang D, Wang K, Wang L. Arrhythmic pulses detection using Lempel-Ziv complexity analysis. EURASIP Journal on Applied Signal Processing. 2006; Article ID 18268.

[11] Wang H-Y, Zhang P-Y. A model for automatic identification of human pulse signals. Journal of Zhejiang University-Sci- ence A. 2008;9(10):1382-9.

[12] Joo S. Well-being Korean Medicine - Arrhythmia. Journal of the KSME. 2006;46(2):104-105.

[13] Min C-H, Kim T-S. Detection of ECG Signal Waveform for Arrhythmia Classification. Proceedings of the IEEK Confer- ence, 2005;453-6.

[14] Yildirim O, Plawiak P, Tan RS, Acharya UR. Arrhythmia detec- tion using deep convolutional neural network with long dura- tion ECG signals. Comput Biol Med. 2018;102:411-20.

[15] Ullah A, Anwar SM, Bilal M, Mehmood RM. Classification of Arrhythmia by Using Deep Learning with 2-D ECG Spec- 그림 6. 무작위 추출된 정상 및 불규칙 맥파에 대한 XGBM 서브 모

듈 선택 도표

Fig. 6. XGBM submodular pick plot of randomly selected normal and irregular radial pulses

(10)

194

tral Image Representation. Remote Sensing. 2020;12(10).

[16] Singh S, Pandey SK, Pawar U, Janghel RR. Classification of ECG arrhythmia using recurrent neural networks. J Procedia computer science. 2018;132:1290-7.

[17] Bae J-H, Kim JU, Kim J. Harmonic analysis of pulse morphology variability for pulse smoothness assessment. Biomedical Sig- nal Processing and Control. 2018;44:1-11.

[18] Bae J-H, Jeon YJ, Kim JY, Kim JU. New assessment model of pulse depth based on sensor displacement in pulse diag- nostic devices. Evid Based Complement Alternat Med. 2013;

Article ID 938641.

[19] Smith J, Gossett P. A flexible sampling-rate conversion method.

IEEE International Conference on Acoustics, Speech, and Signal Processing. 1984;9:112-5.

[20] Wei L, Lee C, Chow P. A new scientific method of pulse diagnosis. J American Journal of Acupuncture. 1984;12(3):205- 18.

[21] Simon N, Friedman J, Hastie T, Tibshirani R. Regularization paths for Cox’s proportional hazards model via coordinate descent. 2011;39(5):1.

[22] Liaw A, Wiener MJ. Classification and regression by random Forest. 2002;2(3):18-22.

[23] Chen T, He T, Benesty M, Khotilovich V, Tang YJ. Xgboost:

extreme gradient boosting. 2015;1-4.

[24] Bui XN, Nguyen H, Tran QH, Bui HB, Nguyen QL, Nguyen DA, Le TTH, Pham V. A Lasso and Elastic-Net Regularized Generalized Linear Model for Predicting Blast-Induced Air Over-pressure in Open-Pit Mines. 2019;21.

[25] Breiman LJ. Random forests. 2001;45(1):5-32.

[26] Wright MN, Ziegler AJ. ranger: A fast implementation of

random forests for high dimensional data in C++ and R.

2015.

[27] Freund Y, Schapire RE. A decision-theoretic generalization of on-line learning and an application to boosting. 1997;55(1):119- 39.

[28] Friedman JH. Stochastic gradient boosting. 2002;38(4):367-78.

[29] Chen C, Liaw A, Breiman L. Using random forest to learn imbal- anced data. 2004;110(12):24.

[30] Fluss R, Faraggi D, Reiser BJ. Estimation of the Youden Index and its associated cutoff point. 2005;47(4):458-72.

[31] Prasad B V P, Parthasarathy V. Detection and classification of cardiovascular abnormalities using FFT based multi-objective genetic algorithm. Biotechnology & Biotechnological Equip- ment. 2017;32(1):183-93.

[32] Huang CM, Chang HC, Kao ST, Li TC, Wei CC, Chen C, Liao YT, Chen FJ. Radial pressure pulse and heart rate vari- ability in heat- and cold-stressed humans. Evid Based Com- plement Alternat Med. 2011; Article ID 751317.

[33] Huang CM, Wei CC, Liao YT, Chang HC, Kao ST, Li TC.

Developing the effective method of spectral harmonic energy ratio to analyze the arterial pulse spectrum. Evid Based Com- plement Alternat Med. 2011; Article ID 342462.

[34] Sheridan RP, Wang WM, Liaw A, Ma J. Extreme gradient boosting as a method for quantitative structure–activity rela- tionships. 2016;56(12):2353-60.

[35] Ribeiro M T, Singh S, Guestrin C. Why should I trust you?

Explaining the predictions of any classifier. Proceedings of the 22nd ACM SIGKDD international conference on knowl- edge discovery and data mining, 2016;1135-44.

수치

Fig. 1. Examples of normal and irregular radial pulse wave signals by type
표 1.  랜덤 포레스트 모형의 조율 모수 격자
Table 2. Tuning parameters of extreme gradient boosting in the experiment
Table 3. Evaluation results of the irregular radial pulse detection models
+3

참조

관련 문서

본 연구에서는 현재까지 상수도 분야에 적용되지 않은 LSTM 기반의 딥러닝 알고리즘을 활용하여 누수발생에 대한 인지 모형을 개발하였다.. 가정한 데이터를 기반으로 모