• 검색 결과가 없습니다.

기계학습(Machine Learning) 기반 예측모형 모의분석 <<

5

지 유형을 고려하였다. 이와 더불어 가구원수 정보를 이용하였으며, 가구

구분 변수설명 문항내용

2. 복지수급 예측모형 분석 DB의 정책적 함의

으로 회귀모형에서는 Mallow's Cp, Adjusted , 분류모형의 경우 오 분류율(misclassification rate)과 관련된 내용을 제시하였다. 이 장에서 복지수급 예측모형 분석 DB를 활용하여 분석한 결과 역시 앞서 언급한 오분류율, 민감도, 특이도 및 이를 활용한 ROC 및 Lift chart 등을 통해 서 비교 평가하고 해석할 수 있다. 그러나 사회보장 빅데이터를 기반으로 다양한 기계학습 방법을 활용하여 예측모형을 구축하고 비교 분석하는 것은 단순히 이러한 지표를 산출하고 해석하는 것에 머물러서는 안 되며 분석 결과가 관련 정책 영역에서 지닌 정책적 함의를 해석하고 도출함으 로써 시사점을 제공할 수 있어야 한다. 여기서는 본 연구에서 구축한 기 초생계급여 중심의 복지수급 예측모형 분석 DB를 통해 도출할 수 있는 정책적 함의에 대해 제시하고자 한다.

사례 분석을 위해 구축한 복지수급 예측모형 분석 DB를 기반으로 앞서 살펴본 다양한 기계학습 방법들을 활용하여 수급 여부에 대한 예측모형 을 비교 평가하여 최적의 모형을 구축한다.

이때, 4장의 예측모형 평가방법에서 설명한 것처럼 목표 변수의 실제 범주(실제 수급 여부에 따른 구분 ☞ 수급 1, 비수급 0)와 예측모형에 의 해 예측된 결과의 범주(수급 여부 예측모형에 의해 예측된 수급 여부에 따른 구분 ☞ 수급 1, 비수급 0) 사이의 관계를 나타내는 오분류표를 활용 하여 다양한 지표를 산출하게 된다.

〔그림 5-1〕 복지수급 예측모형에 의한 오분류표의 정책적 함의

구분 예측 변수(복지수급 여부 예측결과)

예측 0 예측 1

목표 변수 (실제 수급 여부 정보)

실제 0 3 실제0 & 예측0 1 실제0 & 예측1 실제 1 4 실제1 & 예측0 2 실제1 & 예측1

자료: Raschka, S. (2017). Lift Score. https://rasbt.github.io/mlxtend/user_guide/evaluate/

lift_score/에서 2017. 11. 29. 인출.

이러한 오분류표에 제시된 바와 같이 4개 집단으로 구분되며 각각 복 지수급 여부에 대한 예측결과와 관련하여 다음의 의미를 지니고 있으며 이를 통해 정책적 함의와 시사점을 도출하여 제공할 수 있다.

먼저, 집단 ②와 ③을 통해 “<실제0,예측0>빈도+<실제1,예측1> 빈도 / 전체 빈도”를 의미하는 정분류율을 산출하게 되는데, 이것은 실제 복지수 급 여부 정보와 모형을 기반으로 예측된 수급 여부 예측결과가 일치하는 집단을 의미한다. 즉, 복지수급 예측모형을 통하여 수급 가능성이 높은 것으로 예측된 가구가 실제로 생계급여를 수급하고 있으며, 반대로 수급 하지 못할 것으로 예측된 가구가 실제로도 수급하지 못하고 있음을 의미

한다. 이러한 정분류율이 높다면 예측모형의 정확도는 높은 것으로 평가 할 수 있을 것이다. 반면에, 예측모형별 비교 평가에서 중요한 오분류율 은 “1-정분류율”이며 이는 “<실제0,예측1>빈도+<실제1,예측0>빈도 / 전 체 빈도”로 오차율이라고 표현할 수 있다. 무엇보다 이와 같은 오분류 사 례는 민감도(<실제1,예측1> 빈도 / 실제 1의 빈도)와 특이도(<실제0,예측 0>빈도 / 실제 0의 빈도) 산출에도 중요한 영향을 미치게 되지만, 복지수 급 여부에 대한 예측 및 정책 집행 관련 의미는 매우 중요하다고 할 수 있 다. 평가지표의 개념 정의에 따르면 민감도는 실제 범주 1의 정분류율을 특이도는 실제 범주 0에 대한 정분류율을 의미하는데, 이러한 민감도와 특이도에 해당하는 사례를 예측하는 통계적 모형에 대한 평가뿐만 아니 라, 정책적으로 그렇지 않은 사례를 발견하고 이러한 사례가 어떠한 의미 를 지니고 있는지 해석하여 정책적 시사점을 도출하여 제공하는 것도 중 요하며 필수적이라고 할 수 있다.