• 검색 결과가 없습니다.

Ⅱ. 문헌고찰

3. 기계학습

기계학습이란 입력된 자료를 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 방법을 다루는 컴퓨터 과학 분야를 말하며, 컴퓨터가 복잡한 패턴을 자동으로 인식하고 합리적인 결정을 내리는 방법을 익히게 하는 것이 기계학습의 주된 목표이다(Michie et al., 1994).

의료기술의 발전으로 의료 및 간호 보건 분야에서도 다양한 빅데이터가 생 겨나고 있고 이러한 자료를 분석하고 어떻게 활용할 것인가에 대한 해결방안 을 모색하고 있는 실정이다(Alyass, Turcotte & Meyre, 2015). 의료보건 전 문가의 해석과 판단도 중요하지만 사람이 통제하기 어려운 용량의 데이터를 분석하고 그 속에서 의미 있는 정보를 추출하기 위해서 전문가의 의료지식과 기계적인 접근방법을 상호보완적으로 적용한다면 보다 효율적인 성과를 얻어 낼 수 있어 최근 기계학습을 이용한 새로운 예측방법들이 다양한 임상현장에 서 적용되고 있다(Deo, 2015).

본 연구에서는 로지스틱 회귀분석(Logistic regression [LR]), 의사결정나무 (Decision Tree [DT]), 랜덤포레스트(Random Forest [RF]), 엑스지부스트 (eXtreme Gradient Boost [XGB]) 알고리즘을 활용하여 한국 1인 가구의 대사 증후군에 영향을 미치는 요인을 분석하였다. LR, DT, RF는 기계학습기법 중 에서 가장 보편적으로 많이 사용되며, XGB는 최근 새롭게 부각되고 있는 기 계학습기법이다(Locklear, Taylor & Ambrose, 2020).

앞서 살펴본 4가지 알고리즘 중 어떤 방법이 가장 우수하다고 판단하기는

2) 의사결정나무

2012). RF는 표본의 수가 적고 모형에 적용되는 독립변수의 수가 많을 때, 독립변수와 특정질환 간의 연관성을 찾는데 예측력이 탁월한 모형으로 알 려져 있다(Lunetta, Hayward, Segal, & Van Eerdewegh, 2004). 또한, RF 는 결측값은 물론 범주형 변수와 연속형 변수를 모델 안에 포함하여 함께 처리할 수 있으므로 상대적으로 복잡한 모델을 다루는데 더 유용한 편이다 (Ali, Sterk, Seeger, Boersema, & Peters, 2012).

RF 기법을 활용한 연구를 살펴보면 뇌 영상과 유전적 질환 분류로 알츠 하이머 질환을 분류한 연구(권구락, 2019; Moore, Lyons, Gallacher, &

Initiative, 2019), 치주질환을 예측한 연구(이제근, 2019), 폐암 사망 위험을 예측한 연구(정몽주, 2020) 등에서 긍정적인 결과가 보고되었다.

4) 엑스지부스트

XGB은 복수의 분류기 가운데 예측력이 상대적으로 낮은 분류기들을 결 합하여 예측력이 상대적으로 높은 분류기로 바꿈으로써, 전체 모델 내 분산 을 줄여 예측력을 높이는 방법이라고 할 수 있다(Zamani et al, 2019).

eXtreme Gradient Boosting의 약자로 Boosting Algorithm 기반 모델이며, 회귀와 분류, 순위 및 사용자 정의 Objective을 지원하는 유연한 모델이다 (한지형, 고대균과 최현자, 2019; Elavarasan & Vincent, 2020).

XGB 기법을 활용한 연구를 살펴보면 공공빅데이터를 활용하여 안 질환 에 영향을 미치는 기상 요인을 분석한 연구(신미영과 김석일, 2020)와대사 증후군 위험요인을 예측하고 가장 큰 영향력을 확인한 연구가 있었고(문미 경과 이수경, 2017), 노인의 인지능력을 예측하고 인지능력 변화에 영향을 미치는 요인을 탐색하는 연구가 있었다(황혜진, 김수현과 송규원, 2018).

관련 문서