의사결정나무모형(Decision Tree) 분석 - 정책변동 과정과 근거기반 정책의 관계에 대한 연구

의사결정나무모형 분석은 분류와 회귀분석 모두에 사용될 수 있는 머신러 닝 알고리즘의 하나이다. 의사결정나무모형 분석을 몇 가지 장점을 가지고 있는데 데이터 전처리가 필수적이지 않아 변수간의 스케일 조정을 위한 표준 화 작업이 필요하지 않다는 장점이 있다. 머신러닝 방법을 통해 의사결정나 무모형을 구현하기 위한 알고리즘은 CART, CHIAD, C4.5 등 다양하다. 의 사결정나무모형은 의사결정규칙(decision rule)을 나무 형태로 도식화하여 관심 대상의 집단을 여러 개의 소집단으로 분류(classification)하거나 예측 (prediction)하는 방법으로 사용된다. 의사결정나무 분석은 의사결정규칙의 생성, 가지치기와 타당성 평가 그리고 해석의 절차로 진행된다(James et al, 2013). 자료의 특성에 따라 분리 기준(split criterion)과 정지 규칙 (stopping rule)으로 의사결정 규칙을 지정하여 나무모형을 생성한 후 이후 분류의 오류를 높이는 가지를 제거하게 된다. 이후 오류를 최소화하는 교차 타당화(cross validation) 절차를 거쳐 대상변수와 설명변수를 가장 잘 나타 내는 나무를 구축하게 된다.

<표 Ⅴ-1> 의사결정나무 모형의 분리기준 비교

출처 : Raschka & Vahid (2019)를 참고하여 재구성

의사결정나무모형은 분석과정을 이해하기 쉽고 시각화를 통해 설명할 수 있는 장점을 가진다. 그러나 의사결정나무는 설명력은 높지만 예측력이 떨어 지는 단점이 있다. 전체 자료를 훈련 자료(train data)와 시험 자료(test data)로 나누어 교차 타당화를 거치지만 모형이 불안정하다는 문제점도 있다 (Friedman et al., 2000). 또한 예측변수가 늘어날수록 해당 자료는 잘 설 명하지만 다른 표본에 대한 설명력이 떨어지는 과적합(overfitting)문제가 있

분리 기준 내 용

카이제곱 통계량(Chi-squar

e statistics)의 유의수준

· 카이제곱 통계량 : ^



_{ } ^_



_  _

(_   범주의 관측도수, _  기대도수)

· 범주형 자료의 순수도 차이 유무에 대한 검정결과인

유의확률(P-value)을 이용하여 유의확률이 작은 설명변수와 분리기준에 의해 자식노드 생성

지니 지수 (Gini index)

· Gini index : _{  }



^

^

^{ }

^

^

( = 목적변수의 범주의 수,



 = 자료에서  범주로 분류될 확률)

· 불순도(impurity)를 측정하는 하나의 지수로 이를 가장 감소시켜주는 설명변수와 분리기준에 의해 자식노드 생성

엔트로피 지수 (Entropy index)

· Entropy index : _{  }



^

^

^{log}

^

^

( = 목적변수의 범주의 수,



 = 자료에서  범주로 분류될 확률)

· 전체 엔트로피에 가장 많은 영향을 주는 입력변수와 분리기준에 의해 자식노드 형성

어 나무의 크기와 가지치기(pruning) 방법에서 주의가 필요하다. 의사결정나 무모형에 대한 평가는 일반적인 회귀분석 등과는 차이가 있다. 회귀분석 등 에서는 모형이 통계적으로 유의미한지 여부를 일정한 기준에 의해 검증하는 방식으로 진행하여 새로운 변수를 추가하거나 기존 변수를 제거하는 과정을 통해 유의미한 모형을 찾아가는 방법을 취한다. 그러나 의사결정나무모형과 같은 데이터마이닝에서는 노드분할 기준 등을 사전에 설정하여 그 기준에 따 라 생성된 나무모형은 모형의 유의성이 있다고 본다(최영출, 2019).

가. 제1기 (2020년 2월　~ 2020년 10월)

코로나19 1차 유행 시기부터 2차 유행 시기까지 통제정책 수준의 변화를 살펴보면 <그림 Ⅴ-1>에서 보는 바와 같이 1차 유행 초기보다 2차 유행 시 기의 정책의 강도가 낮아졌다는 것을 알 수 있다. 코로나19 통제정책의 수 준은 신규 확진자 발생이 고점을 지난 이후에 높아졌다는 점도 확인할 수 있다. 정부의 코로나19 통제정책이 확진자 수 증가가 발생한 다음 이를 분 석하고 사회적 거리두기 정책의 단계를 상향하는 등의 조치를 결정하기까지 는 다소간의 시간이 필요하기 때문에 발생하는 시차(lag)로 볼 수 있다. 비교 적 신규 확진자 수가 크게 증가하지 않았던 2020년 5월의 경우에도 통제 수준이 높아진 것을 알 수 있는데 이는 2020년 5월 연휴 이후에 이태원 지 역을 중심으로 발생했던 집단감염에 따른 조치로 볼 수 있다.

<그림 Ⅴ-1> 코로나19 통제정책의 수준 (제1기)

자료: 질병관리청 및 OxCGRT 재산정

분석에 사용된 변수의 기초통계량은 <표 Ⅴ-2>에서 보는 바와 같다. 분석 대상 변수인 코로나19 통제정책의 수준(KCGRT_Shift)는 다른 변수와의 시 차(time lag)를 고려하여 1주(week)의 시차를 설정하여 분석을 진행하였다.

관측치는 2020년 2월부터 2020년 10월까지 총 37주로 구성되어 있다. 코 로나19 통제정책 수준은 평균 41.83을 나타냈으며 최소값은 26.19 최대값 은 67.59로 나타났다. 신규 확진자수와 신규 사망자수는 7일 이동평균값을 적용하여 산출하였다. 치명률(CFR)은 시점별 누적 확진자수와 누적 사망자수 를 통해 산출된 누적 치명률을 분석에 사용하였다. 코로나19 제1기의 치명 률은 평균 1.78로 나타났으며 사망자가 많아진 시점에서는 최대 2.37까지 상승하기도 하였다. 방역 정책에 대한 국민인식 조사는 2주 또는 4주 간격 으로 진행되어 해당 값을 선형 보간법(Linear Interpolation)을 활용한 주 간 자료로 산출하여 분석하였다. 소상공인 경기체감지수는 월별로 산출되는 자료로 해당 월이 속한 주간에는 동일한 값을 적용하여 분석을 하였다.

<표 Ⅴ-2> 변수의 기초통계량 (제1기)

코로나19 제1기의 통제정책의 수준이 어떠한 정책 환경적 요인이 결합되 어 형성되고 분류되었는지를 살펴보기 위해 의사결정나무모형을 사용하여 분 석을 진행하였다. 의사결정나무모형은 대상변수가 범주형 변수인 경우에는 분류나무로 생성되고 대상변수가 연속형 변수인 경우 회귀나무로 분석이 진 행된다. 본 연구에서는 대상변수가 코로나19 통제정책의 수준이라는 지수 형 태의 값을 갖고 있다는 점을 고려하여 연속형 변수로 설정하여 분석을 실시 하였다. 다만 대상변수를 범주형으로 인식하도록 하여 진행한 분류나무 분석 도 실시하여 분석결과를 부록에 첨부하였다.³⁵⁾ 분석결과 1단계 가지노드의

35) 대상변수의 유형을 범주형으로 설정하는 경우 대상변수 값을 정확하게 제시하기 어렵지 만 분류 정확도가 연속형으로 설정한 경우에 비해 상대적으로 높게 나타난다는 장점이 있 다(정찬미·민대기, 2020). 다만 연속형 변수를 범주형 변수로 조작하는 경우 정보가 손실 된다는 단점도 존재한다. 이와 달리 대상변수를 연속형으로 고려하는 경우 높은 예측 정 확도를 기대하기 어렵다는 한계가 있으나 본 연구는 빅데이터 분석과 달리 관측치가 많지 않기 때문에 연속형 변수로 설정하여 분석을 실시하였고 범주형 변수로 설정한 분석결과 를 비교를 위해 부록에 첨부하였다.

변 수 관측치 평균 표준편차 최소값 최대값

코로나19 통제정책 수준 37 41.83 9.31 26.19 67.59 신규 확진자수 37 98.55 113.92 0.95 559.73

신규 사망자수 37 1.74 1.60 0 5.95

치명률 (누적) 37 1.78 0.59 0 2.37

진단 양성률 37 0.96 0.96 0.20 4.47

방역정책 부정인식 37 25.74 9.26 16.28 52.35 인구 이동량 37 -11.70 8.53 -32.71 -1.42 소상공인 경기체감지수 37 65.57 17.95 29.70 88.30

분류기준은 ‘신규 사망자수’로 나타났고 2단계 가지노드의 분류기준은 ‘신규 확진자수’와 ‘치명률’로 확인되었다. 다음으로 3단계 가지노드의 분류기준은

‘진단 양성률’과 ‘인구 이동량’으로 나타났다.

<그림 Ⅴ-2> 의사결정나무 모형 분석 (제1기)

의사결정나무모형에서 변수의 중요도를 살펴보면 <표 Ⅴ-3>에서 보는 바

와 같이 신규 사망자수가 코로나19 통제정책 수준에 가장 중요한 설명변수 로 나타났다. 다음으로 신규 확진자수과 치명률이 중요한 설명변수인 것으로 확인되었다. 신규 사망자수, 신규 확진자수, 치명률 자료는 모두 코로나19 정책 문제를 나타내는 근거로 제1기의 코로나19 통제정책은 코로나19 확산 상황을 보다 중요하게 고려하였을 것으로 추정할 수 있다. 신종 감염병에 대 한 초기 대응에서는 해당 감염병의 특성을 나타내는 근거들이 정책 결정 및 변화에 중요한 원인으로 작용하였을 것으로 추정할 수 있다.

<표 Ⅴ-3> 의사결정나무모형의 변수 중요도 (제1기)

나. 제2기 (2020년 11월 ~ 2021년 6월)

코로나19 2차 유행 시기가 지난 이후 2020년 11월 중순부터 겨울철 3차 유행이 진행되었다. <그림 Ⅴ-3>에서 보는 바와 같이 당시 코로나19 통제 정책의 수준은 확진자 수 증가함에 따라 다시 증가하였다는 것을 알 수 있 다. 2021년 2월 중순 이후 6월 말까지는 확진자 수가 400명에서 800명까 지 증가와 감소를 반복하여 폭발적인 증가는 일어나지 않는 안정적인 시기가 지속되었다. 당시 통제정책의 수준은 3차 유행이 고조된 시기의 수준에서부 터 단계적으로 조금씩 조정을 거듭하면서 통제수준이 완화되는 흐름을 보이 고 있다.

Variable Training

Count Relative Importance

신규 사망자수 1.00 45.82 1

신규 확진자수 0.48 22.05 3

치명률 (누적) 0.35 16.13 2

<그림 Ⅴ-3> 코로나19 통제정책의 수준 (제2기)

자료: ^{질병관리청 및}OxCGRT ^재산정

분석에 사용된 변수의 기초통계량은 <표 Ⅴ-4>에서 보는 바와 같다. 제2 기의 관측치는 2020년 11월부터 2021년 6월까지로 35주를 대상으로 분석 을 진행하였다. 분석 대상 변수인 코로나19 통제정책 수준은 전반기와 마찬 가지로 정책 시차(time lag)를 1주(week)로 설정하였다. 제2기의 통제정책 수준은 평균 49.44로 나타났으며 최소값은 37.96 최대값은 67.32로 나타났 다. 코로나19 제2기는 제1기와 다르게 중환자 수, 중환자 병상수, 백신 2차 접종률 자료가 추가되었다. 이는 2020년 11월 1일부터 적용된 5단계 사회 적 거리두기 정책에서는 단계 조정시 중환자 수, 중환자 병상 수 등을 고려 하기로 하여 해당자료가 방역 당국의 정례브리핑 자료에 포함되어 발표되었 기 때문이다. 또한 2021년 2월부터 시작된 백신 접종의 경우도 감염 확산에 영향을 미치는 주요한 정책 자원의 변화에 해당되기 때문에 이를 고려하여 분석을 진행하였다.

<표 Ⅴ-4> 변수의 기초통계량 (제2기)

문서에서 정책변동 과정과 근거기반 정책의 관계에 대한 연구 - S-Space (페이지 111-121)